From 822663348a4d83554e272ca62e3b3ebc50d93d11 Mon Sep 17 00:00:00 2001
From: UH <554c46@gmail.com>
Date: Wed, 8 Jan 2020 19:01:08 +0100
Subject: [PATCH 01/28] LayernormSimpleRNN moved to addons

---
 tensorflow_addons/rnn/BUILD                   |  10 +
 tensorflow_addons/rnn/__init__.py             |   2 +
 tensorflow_addons/rnn/layernorm_simplernn.py  | 435 ++++++++++++++++++
 .../rnn/layernorm_simplernn_test.py           | 236 ++++++++++
 4 files changed, 683 insertions(+)
 create mode 100644 tensorflow_addons/rnn/layernorm_simplernn.py
 create mode 100644 tensorflow_addons/rnn/layernorm_simplernn_test.py

diff --git a/tensorflow_addons/rnn/BUILD b/tensorflow_addons/rnn/BUILD
index 237d75b977..2f2cc1b136 100644
--- a/tensorflow_addons/rnn/BUILD
+++ b/tensorflow_addons/rnn/BUILD
@@ -7,6 +7,7 @@ py_library(
     srcs = [
         "__init__.py",
         "cell.py",
+        "layernorm_simplernn.py",
     ],
     deps = [
         "//tensorflow_addons/utils",
@@ -21,3 +22,12 @@ py_test(
         ":rnn",
     ],
 )
+
+py_test(
+    name = "layernorm_simplernn_test",
+    size = "small",
+    srcs = ["layernorm_simplernn_test.py"],
+    deps = [
+        ":rnn",
+    ],
+)
diff --git a/tensorflow_addons/rnn/__init__.py b/tensorflow_addons/rnn/__init__.py
index 363a2dc7e4..fd6263ea30 100644
--- a/tensorflow_addons/rnn/__init__.py
+++ b/tensorflow_addons/rnn/__init__.py
@@ -20,3 +20,5 @@
 
 from tensorflow_addons.rnn.cell import LayerNormLSTMCell
 from tensorflow_addons.rnn.cell import NASCell
+from tensorflow_addons.rnn.layernorm_simplernn import (
+    LayernormSimpleRNN, LayernormSimpleRNNCell)
diff --git a/tensorflow_addons/rnn/layernorm_simplernn.py b/tensorflow_addons/rnn/layernorm_simplernn.py
new file mode 100644
index 0000000000..3dfd026a6a
--- /dev/null
+++ b/tensorflow_addons/rnn/layernorm_simplernn.py
@@ -0,0 +1,435 @@
+# Copyright 2015 The TensorFlow Authors. All Rights Reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+# ==============================================================================
+"""Module for LayernormSimpleRNN and LayernormSimpleRNNCell."""
+from __future__ import absolute_import
+from __future__ import division
+from __future__ import print_function
+
+import collections
+
+import numpy as np
+import tensorflow as tf
+from tensorflow.keras.layers import SimpleRNN, SimpleRNNCell
+from tensorflow.keras.layers import LayerNormalization
+
+from tensorflow.python.keras import backend as K  # for SimpleRNNCell.call()
+# from tensorflow.python.keras import regularizers  # for activity_regularizer
+# from tensorflow.python.keras.engine.input_spec import InputSpec  # for SimpleRNN.__init__()
+# from tensorflow.python.keras.utils import tf_utils  # for shape_type_conversion
+
+
+@tf.keras.utils.register_keras_serializable(package='Addons')
+# class LayernormSimpleRNNCell(SimpleRNNCell, LayerNormalization):
+class LayernormSimpleRNNCell(SimpleRNNCell):
+    """Cell class for LayernormSimpleRNN.
+
+    Motivation:
+    - Drop-In Replacement for keras.layers.SimpleRNNCell
+    - demonstrate how to add LayerNormalization to all RNNs as option
+    - see Ba et al. (2016), and tf.keras.layers.LayerNormalization
+
+    See [the Keras RNN API guide](https://www.tensorflow.org/guide/keras/rnn)
+    for details about the usage of RNN API.
+
+    This class processes one step within the whole time sequence input, whereas
+    `tf.keras.layer.LayernormSimpleRNN` processes the whole sequence.
+
+    Arguments:
+      units: Positive integer, dimensionality of the output space.
+      activation: Activation function to use.
+        Default: hyperbolic tangent (`tanh`).
+        If you pass `None`, no activation is applied
+        (ie. "linear" activation: `a(x) = x`).
+      use_bias: Boolean, (default `True`), whether the layer uses a bias vector.
+      use_layernorm: Boolean, (default `False`), whether layer uses layer
+        normalization instead of a bias vector.
+      layernorm_epsilon: Float, (default `1e-5`), Small float added to variance
+        to avoid dividing by zero.
+      kernel_initializer: Initializer for the `kernel` weights matrix,
+        used for the linear transformation of the inputs. Default:
+        `glorot_uniform`.
+      recurrent_initializer: Initializer for the `recurrent_kernel`
+        weights matrix, used for the linear transformation of the recurrent
+        state. Default: `orthogonal`.
+      bias_initializer: Initializer for the bias vector (`use_bias=True`) or
+         for the beta vector in layer normalization (`use_layernorm=True`).
+         Default: `zeros`.
+      gamma_initializer: Initializer for the gamma vector of the layer
+         normalization layer (`use_layernorm=True`). Default: `ones`.
+      kernel_regularizer: Regularizer function applied to the `kernel` weights
+        matrix. Default: `None`.
+      recurrent_regularizer: Regularizer function applied to the
+        `recurrent_kernel` weights matrix. Default: `None`.
+      bias_regularizer: Regularizer function applied to the bias vector
+         (`use_bias=True`) or for the beta vector of the layer normalization
+         layer (`use_layernorm=True`). Default: `None`.
+      gamma_regularizer: Regularizer function applied to the gamma vector
+         of the layer normalization layer (`use_layernorm=True`).
+         Default: `None`.
+      kernel_constraint: Constraint function applied to the `kernel` weights
+        matrix. Default: `None`.
+      recurrent_constraint: Constraint function applied to the `recurrent_kernel`
+        weights matrix. Default: `None`.
+      bias_constraint: Constraint function applied to the bias vector
+         (`use_bias=True`) or for the beta vector of the layer normalization
+         layer (`use_layernorm=True`). Default: `None`.
+      gamma_constraint: Constraint function applied to the gamma vector
+         of the layer normalization layer (`use_layernorm=True`).
+         Default: `None`.
+      dropout: Float between 0 and 1. Fraction of the units to drop for the
+        linear transformation of the inputs. Default: 0.
+      recurrent_dropout: Float between 0 and 1. Fraction of the units to drop for
+        the linear transformation of the recurrent state. Default: 0.
+
+    Call arguments:
+      inputs: A 2D tensor, with shape of `[batch, feature]`.
+      states: A 2D tensor with shape of `[batch, units]`, which is the state
+        from the previous time step. For timestep 0, the initial state provided
+        by the user will be feed to cell.
+      training: Python boolean indicating whether the layer should behave in
+        training mode or in inference mode. Only relevant when `dropout` or
+        `recurrent_dropout` is used.
+
+    Examples:
+
+    ```python
+    inputs = np.random.random([32, 10, 8]).astype(np.float32)
+    rnn = tf.keras.layers.RNN(
+      tf.keras.layers.LayernormSimpleRNNCell(4, use_layernorm=True))
+
+    output = rnn(inputs)  # The output has shape `[32, 4]`.
+
+    rnn = tf.keras.layers.RNN(
+        tf.keras.layers.LayernormSimpleRNNCell(4, use_layernorm=True),
+        return_sequences=True,
+        return_state=True)
+
+    # whole_sequence_output has shape `[32, 10, 4]`.
+    # final_state has shape `[32, 4]`.
+    whole_sequence_output, final_state = rnn(inputs)
+    ```
+    """
+
+    def __init__(self,
+                 units,
+                 activation='tanh',
+                 use_bias=True,
+                 use_layernorm=False,  # NEW(!)
+                 layernorm_epsilon=1e-05,  # NEW(!)
+                 kernel_initializer='glorot_uniform',
+                 recurrent_initializer='orthogonal',
+                 bias_initializer='zeros',
+                 gamma_initializer='ones',  # NEW(!)
+                 kernel_regularizer=None,
+                 recurrent_regularizer=None,
+                 bias_regularizer=None,
+                 gamma_regularizer=None,  # NEW(!)
+                 kernel_constraint=None,
+                 recurrent_constraint=None,
+                 bias_constraint=None,
+                 gamma_constraint=None,  # NEW(!)
+                 dropout=0.,
+                 recurrent_dropout=0.,
+                 **kwargs):
+        self.use_layernorm = use_layernorm
+        SimpleRNNCell.__init__(
+            self,
+            units,
+            activation=activation,
+            use_bias=False if use_layernorm else use_bias,
+            kernel_initializer=kernel_initializer,
+            recurrent_initializer=recurrent_initializer,
+            bias_initializer=None if use_layernorm else bias_initializer,
+            kernel_regularizer=kernel_regularizer,
+            recurrent_regularizer=recurrent_regularizer,
+            bias_regularizer=None if use_layernorm else bias_regularizer,
+            kernel_constraint=kernel_constraint,
+            recurrent_constraint=recurrent_constraint,
+            bias_constraint=None if use_layernorm else bias_constraint,
+            dropout=dropout,
+            recurrent_dropout=recurrent_dropout,
+            dtype=kwargs.get('dtype'),
+            trainable=kwargs.get('trainable', True))
+        if use_layernorm:
+            # LayerNormalization.__init__(self,
+            self.layernorm = LayerNormalization(
+                axis=-1,
+                epsilon=layernorm_epsilon,
+                center=True,
+                scale=True,
+                beta_initializer=bias_initializer,
+                gamma_initializer=gamma_initializer,
+                beta_regularizer=bias_regularizer,
+                gamma_regularizer=gamma_regularizer,
+                beta_constraint=bias_constraint,
+                gamma_constraint=gamma_constraint,
+                dtype=kwargs.get('dtype'),
+                trainable=kwargs.get('trainable', True))
+
+    # @tf_utils.shape_type_conversion
+    def build(self, input_shape):
+        SimpleRNNCell.build(self, input_shape)
+        if self.use_layernorm:
+            # LayerNormalization.build(self, (None, self.units))
+            self.layernorm.build((None, self.units))
+
+    def call(self, inputs, states, training=None):
+        prev_output = states[0]
+        dp_mask = self.get_dropout_mask_for_cell(inputs, training)
+        rec_dp_mask = self.get_recurrent_dropout_mask_for_cell(
+            prev_output, training)
+
+        if dp_mask is not None:
+            h = K.dot(inputs * dp_mask, self.kernel)
+        else:
+            h = K.dot(inputs, self.kernel)
+        if self.bias is not None:
+            h = K.bias_add(h, self.bias)
+
+        if rec_dp_mask is not None:
+            prev_output = prev_output * rec_dp_mask
+        output = h + K.dot(prev_output, self.recurrent_kernel)
+
+        if self.use_layernorm:
+            # output = LayerNormalization.call(self, output)
+            output = self.layernorm(output)
+
+        if self.activation is not None:
+            output = self.activation(output)
+
+        return output, [output]
+
+    # use SimpleRNNCell's get_initial_state method
+
+    def get_config(self):
+        config = {
+            'use_layernorm':
+                self.use_layernorm
+        }
+        cell_config = SimpleRNNCell.get_config(self)
+        del cell_config['name']
+        if self.use_layernorm:
+            # ln_config = LayerNormalization.get_config(self)
+            ln_config = self.layernorm.get_config()
+            ln_config['bias_initializer'] = ln_config.pop("beta_initializer")
+            ln_config['bias_regularizer'] = ln_config.pop("beta_regularizer")
+            ln_config['bias_constraint'] = ln_config.pop("beta_constraint")
+            ln_config['layernorm_epsilon'] = ln_config.pop("epsilon")
+            del ln_config['axis']
+            del ln_config['center']
+            del ln_config['scale']
+            del ln_config['name']
+        else:
+            ln_config = {}
+        return {**config, **cell_config, **ln_config}
+
+
+@tf.keras.utils.register_keras_serializable(package='Addons')
+class LayernormSimpleRNN(SimpleRNN):
+    """Fully-connected RNN where the output is to be fed back to input.
+
+    Motivation:
+    - Drop-In Replacement for keras.layers.SimpleRNN
+    - demonstrate how to add LayerNormalization to all RNNs as option
+    - see Ba et al. (2016), and tf.keras.layers.LayerNormalization
+
+    See [the Keras RNN API guide](https://www.tensorflow.org/guide/keras/rnn)
+    for details about the usage of RNN API.
+
+    Arguments:
+      units: Positive integer, dimensionality of the output space.
+      activation: Activation function to use.
+        Default: hyperbolic tangent (`tanh`).
+        If you pass None, no activation is applied
+        (ie. "linear" activation: `a(x) = x`).
+      use_bias: Boolean, (default `True`), whether the layer uses a bias vector.
+      use_layernorm: Boolean, (default `False`), whether layer uses layer
+        normalization instead of a bias vector.
+      layernorm_epsilon: Float, (default `1e-5`), Small float added to variance
+        to avoid dividing by zero.
+      kernel_initializer: Initializer for the `kernel` weights matrix,
+        used for the linear transformation of the inputs. Default:
+        `glorot_uniform`.
+      recurrent_initializer: Initializer for the `recurrent_kernel`
+        weights matrix, used for the linear transformation of the recurrent
+        state. Default: `orthogonal`.
+      bias_initializer: Initializer for the bias vector (`use_bias=True`) or
+         for the beta vector in layer normalization (`use_layernorm=True`).
+         Default: `zeros`.
+      gamma_initializer: Initializer for the gamma vector of the layer
+         normalization layer (`use_layernorm=True`). Default: `ones`.
+      kernel_regularizer: Regularizer function applied to the `kernel` weights
+        matrix. Default: `None`.
+      recurrent_regularizer: Regularizer function applied to the
+        `recurrent_kernel` weights matrix. Default: `None`.
+      bias_regularizer: Regularizer function applied to the bias vector
+         (`use_bias=True`) or for the beta vector of the layer normalization
+         layer (`use_layernorm=True`). Default: `None`.
+      gamma_regularizer: Regularizer function applied to the gamma vector
+         of the layer normalization layer (`use_layernorm=True`).
+         Default: `None`.
+      activity_regularizer: Regularizer function applied to the output of the
+        layer (its "activation"). Default: `None`.
+      kernel_constraint: Constraint function applied to the `kernel` weights
+        matrix. Default: `None`.
+      recurrent_constraint: Constraint function applied to the `recurrent_kernel`
+        weights matrix.  Default: `None`.
+      bias_constraint: Constraint function applied to the bias vector
+         (`use_bias=True`) or for the beta vector of the layer normalization
+         layer (`use_layernorm=True`). Default: `None`.
+      gamma_constraint: Constraint function applied to the gamma vector
+         of the layer normalization layer (`use_layernorm=True`).
+         Default: `None`.
+      dropout: Float between 0 and 1.
+        Fraction of the units to drop for the linear transformation of the
+        inputs. Default: 0.
+      recurrent_dropout: Float between 0 and 1.
+        Fraction of the units to drop for the linear transformation of the
+        recurrent state. Default: 0.
+      return_sequences: Boolean. Whether to return the last output
+        in the output sequence, or the full sequence. Default: `False`.
+      return_state: Boolean. Whether to return the last state
+        in addition to the output. Default: `False`
+      go_backwards: Boolean (default False).
+        If True, process the input sequence backwards and return the
+        reversed sequence.
+      stateful: Boolean (default False). If True, the last state
+        for each sample at index i in a batch will be used as initial
+        state for the sample of index i in the following batch.
+      unroll: Boolean (default False).
+        If True, the network will be unrolled,
+        else a symbolic loop will be used.
+        Unrolling can speed-up a RNN,
+        although it tends to be more memory-intensive.
+        Unrolling is only suitable for short sequences.
+
+    Call arguments:
+      inputs: A 3D tensor, with shape `[batch, timesteps, feature]`.
+      mask: Binary tensor of shape `[batch, timesteps]` indicating whether
+        a given timestep should be masked.
+      training: Python boolean indicating whether the layer should behave in
+        training mode or in inference mode. This argument is passed to the cell
+        when calling it. This is only relevant if `dropout` or
+        `recurrent_dropout` is used.
+      initial_state: List of initial state tensors to be passed to the first
+        call of the cell.
+
+    Examples:
+
+    ```python
+    inputs = np.random.random([32, 10, 8]).astype(np.float32)
+    model = tf.keras.layers.LayernormSimpleRNN(4, use_layernorm=True)
+
+    output = model(inputs)  # The output has shape `[32, 4]`.
+
+    model = tf.keras.layers.LayernormSimpleRNN(
+        4, use_layernorm=True, return_sequences=True, return_state=True)
+
+    # whole_sequence_output has shape `[32, 10, 4]`.
+    # final_state has shape `[32, 4]`.
+    whole_sequence_output, final_state = model(inputs)
+    ```
+    """
+
+    def __init__(self,
+                 units,
+                 activation='tanh',
+                 use_bias=True,
+                 use_layernorm=False,  # NEW(!)
+                 layernorm_epsilon=1e-05,  # NEW(!)
+                 kernel_initializer='glorot_uniform',
+                 recurrent_initializer='orthogonal',
+                 bias_initializer='zeros',
+                 gamma_initializer='ones',  # NEW(!)
+                 kernel_regularizer=None,
+                 recurrent_regularizer=None,
+                 bias_regularizer=None,
+                 gamma_regularizer=None,  # NEW(!)
+                 activity_regularizer=None,
+                 kernel_constraint=None,
+                 recurrent_constraint=None,
+                 bias_constraint=None,
+                 gamma_constraint=None,  # NEW(!)
+                 dropout=0.,
+                 recurrent_dropout=0.,
+                 return_sequences=False,
+                 return_state=False,
+                 go_backwards=False,
+                 stateful=False,
+                 unroll=False,
+                 **kwargs):
+        # 'implementation' warning was never relevant for LayernormSimpleRNN
+        cell = LayernormSimpleRNNCell(
+            units,
+            activation=activation,
+            use_bias=use_bias,
+            use_layernorm=use_layernorm,  # NEW(!)
+            layernorm_epsilon=layernorm_epsilon,  # NEW(!)
+            kernel_initializer=kernel_initializer,
+            recurrent_initializer=recurrent_initializer,
+            bias_initializer=bias_initializer,
+            gamma_initializer=gamma_initializer,  # NEW(!)
+            kernel_regularizer=kernel_regularizer,
+            recurrent_regularizer=recurrent_regularizer,
+            bias_regularizer=bias_regularizer,
+            gamma_regularizer=gamma_regularizer,  # NEW(!)
+            activity_regularizer=activity_regularizer,
+            kernel_constraint=kernel_constraint,
+            recurrent_constraint=recurrent_constraint,
+            bias_constraint=bias_constraint,
+            gamma_constraint=gamma_constraint,  # NEW(!)
+            dropout=dropout,
+            recurrent_dropout=recurrent_dropout,
+            dtype=kwargs.get('dtype'),
+            trainable=kwargs.get('trainable', True))
+        super(SimpleRNN, self).__init__(  # call RNN's init
+            cell,
+            return_sequences=return_sequences,
+            return_state=return_state,
+            go_backwards=go_backwards,
+            stateful=stateful,
+            unroll=unroll,
+            **kwargs)
+        # IT'S NOT USED ANYWHERE(!):
+        # self.activity_regularizer = regularizers.get(activity_regularizer)
+        # self.input_spec = [InputSpec(ndim=3)]
+
+    # use SimpleRNN's call() method
+
+    @property
+    def use_layernorm(self):
+        return self.cell.use_layernorm
+
+    @property
+    def layernorm_epsilon(self):
+        return self.cell.layernorm_epsilon
+
+    @property
+    def gamma_initializer(self):
+        return self.cell.gamma_initializer
+
+    @property
+    def gamma_regularizer(self):
+        return self.cell.gamma_regularizer
+
+    @property
+    def gamma_constraint(self):
+        return self.cell.gamma_constraint
+
+    def get_config(self):
+        base_config = super(SimpleRNN, self).get_config()  # get RNN's config
+        del base_config['cell']
+        cell_config = self.cell.get_config()
+        return {**base_config, **cell_config}
diff --git a/tensorflow_addons/rnn/layernorm_simplernn_test.py b/tensorflow_addons/rnn/layernorm_simplernn_test.py
new file mode 100644
index 0000000000..3c95a76ebd
--- /dev/null
+++ b/tensorflow_addons/rnn/layernorm_simplernn_test.py
@@ -0,0 +1,236 @@
+# Copyright 2016 The TensorFlow Authors. All Rights Reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+# ==============================================================================
+"""Tests for LayernormSimpleRNN layer."""
+
+from __future__ import absolute_import
+from __future__ import division
+from __future__ import print_function
+
+import numpy as np
+import tensorflow as tf
+import tensorflow.keras as keras
+
+from tensorflow_addons.utils import test_utils  # for eager mode
+#from tensorflow.python.eager import context  # to check eager mode
+from tensorflow.python.keras import testing_utils  # for 'layer_test'
+from tensorflow.python.training import gradient_descent  # for GD
+
+import tensorflow_addons.rnn.layernorm_simplernn as lnrnn
+# import layernorm_simplernn as lnrnn
+
+
+@test_utils.run_all_in_graph_and_eager_modes
+class LayernormSimpleRNNTest(tf.test.TestCase):
+
+    def test_return_sequences_layernorm_rnn(self):
+        num_samples = 2
+        timesteps = 3
+        embedding_dim = 4
+        units = 2
+        testing_utils.layer_test(
+            lnrnn.LayernormSimpleRNN,
+            kwargs={'units': units,
+                    'use_layernorm': True,
+                    'return_sequences': True},
+            input_shape=(num_samples, timesteps, embedding_dim))
+
+    def test_float64_layernorm_rnn(self):
+        num_samples = 2
+        timesteps = 3
+        embedding_dim = 4
+        units = 2
+        testing_utils.layer_test(
+            lnrnn.LayernormSimpleRNN,
+            kwargs={'units': units,
+                    'use_layernorm': True,
+                    'return_sequences': True,
+                    'dtype': 'float64'},
+            input_shape=(num_samples, timesteps, embedding_dim),
+            input_dtype='float64')
+
+    def test_dynamic_behavior_layernorm_rnn(self):
+        num_samples = 2
+        timesteps = 3
+        embedding_dim = 4
+        units = 2
+        layer = lnrnn.LayernormSimpleRNN(
+            units,
+            use_layernorm=True,
+            input_shape=(None, embedding_dim))
+        model = keras.models.Sequential()
+        model.add(layer)
+        model.compile('rmsprop', 'mse')
+        x = np.random.random((num_samples, timesteps, embedding_dim))
+        y = np.random.random((num_samples, units))
+        model.train_on_batch(x, y)
+
+    # test_implementation_mode_layernorm_rnn deleted
+
+    def test_dropout_layernorm_rnn(self):
+        num_samples = 2
+        timesteps = 3
+        embedding_dim = 4
+        units = 2
+        testing_utils.layer_test(
+            lnrnn.LayernormSimpleRNN,
+            kwargs={'units': units,
+                    'use_layernorm': True,
+                    'dropout': 0.1,
+                    'recurrent_dropout': 0.1},
+            input_shape=(num_samples, timesteps, embedding_dim))
+
+    def test_constraints_layernorm_rnn(self):
+        embedding_dim = 4
+        layer_class = lnrnn.LayernormSimpleRNN
+        k_constraint = keras.constraints.max_norm(0.01)
+        r_constraint = keras.constraints.max_norm(0.01)
+        b_constraint = keras.constraints.max_norm(0.01)
+        g_constraint = keras.constraints.max_norm(0.01)
+        layer = layer_class(
+            5,
+            use_layernorm=True,
+            return_sequences=False,
+            weights=None,
+            input_shape=(None, embedding_dim),
+            kernel_constraint=k_constraint,
+            recurrent_constraint=r_constraint,
+            bias_constraint=b_constraint,  # Will be beta!
+            gamma_constraint=g_constraint)
+        layer.build((None, None, embedding_dim))
+        self.assertEqual(layer.cell.kernel.constraint, k_constraint)
+        self.assertEqual(layer.cell.recurrent_kernel.constraint, r_constraint)
+        self.assertEqual(layer.cell.layernorm.beta.constraint, b_constraint)
+        self.assertEqual(layer.cell.layernorm.gamma.constraint, g_constraint)
+
+    def test_with_masking_layer_layernorm_rnn(self):
+        layer_class = lnrnn.LayernormSimpleRNN
+        inputs = np.random.random((2, 3, 4))
+        targets = np.abs(np.random.random((2, 3, 5)))
+        targets /= targets.sum(axis=-1, keepdims=True)
+        model = keras.models.Sequential()
+        model.add(keras.layers.Masking(input_shape=(3, 4)))
+        model.add(layer_class(
+            units=5,
+            use_layernorm=True,
+            return_sequences=True,
+            unroll=False))
+        model.compile(loss='categorical_crossentropy', optimizer='rmsprop')
+        model.fit(inputs, targets, epochs=1, batch_size=2, verbose=1)
+
+    def test_from_config_layernorm_rnn(self):
+        layer_class = lnrnn.LayernormSimpleRNN
+        for stateful in (False, True):
+            l1 = layer_class(
+                units=1,
+                use_layernorm=True,
+                stateful=stateful)
+            l2 = layer_class.from_config(l1.get_config())
+            assert l1.get_config() == l2.get_config()
+
+    def test_regularizers_layernorm_rnn(self):
+        embedding_dim = 4
+        layer_class = lnrnn.LayernormSimpleRNN
+        layer = layer_class(
+            5,
+            use_layernorm=True,
+            return_sequences=False,
+            weights=None,
+            input_shape=(None, embedding_dim),
+            kernel_regularizer=keras.regularizers.l1(0.01),
+            recurrent_regularizer=keras.regularizers.l1(0.01),
+            bias_regularizer='l2',
+            gamma_regularizer='l2')
+            # activity_regularizer='l1'  # DOESN'T DO ANYTHING
+        layer.build((None, None, 2))
+        self.assertEqual(len(layer.losses), 4)
+
+        #x = keras.backend.variable(np.ones((2, 3, 2)))
+        #layer(x)
+        #if context.executing_eagerly():
+        #    self.assertEqual(len(layer.losses), 4)
+        #else:
+        #    self.assertEqual(len(layer.get_losses_for(x)), 1)
+"""
+STILL FAILS
+    def test_statefulness_layernorm_rnn(self):
+        num_samples = 2
+        timesteps = 3
+        embedding_dim = 4
+        units = 2
+        layer_class = lnrnn.LayernormSimpleRNN
+        model = keras.models.Sequential()
+        model.add(
+            keras.layers.Embedding(
+                4,
+                embedding_dim,
+                mask_zero=True,
+                input_length=timesteps,
+                batch_input_shape=(num_samples, timesteps)))
+        layer = layer_class(
+            units,
+            use_layernorm=True,
+            return_sequences=False,
+            stateful=True,
+            weights=None)
+        model.add(layer)
+        model.compile(
+            optimizer=gradient_descent.GradientDescentOptimizer(0.01),
+            loss='mse')
+        out1 = model.predict(np.ones((num_samples, timesteps)))
+        self.assertEqual(out1.shape, (num_samples, units))
+
+        # train once so that the states change
+        model.train_on_batch(
+            np.ones((num_samples, timesteps)), np.ones((num_samples, units)))
+        out2 = model.predict(np.ones((num_samples, timesteps)))
+
+        # if the state is not reset, output should be different
+        self.assertNotEqual(out1.max(), out2.max())
+
+        # check that output changes after states are reset
+        # (even though the model itself didn't change)
+        layer.reset_states()
+        out3 = model.predict(np.ones((num_samples, timesteps)))
+        self.assertNotEqual(out2.max(), out3.max())
+
+        # check that container-level reset_states() works
+        model.reset_states()
+        out4 = model.predict(np.ones((num_samples, timesteps)))
+        np.testing.assert_allclose(out3, out4, atol=1e-5)
+
+        # check that the call to `predict` updated the states
+        out5 = model.predict(np.ones((num_samples, timesteps)))
+        self.assertNotEqual(out4.max(), out5.max())
+
+        # Check masking
+        layer.reset_states()
+
+        left_padded_input = np.ones((num_samples, timesteps))
+        left_padded_input[0, :1] = 0
+        left_padded_input[1, :2] = 0
+        out6 = model.predict(left_padded_input)
+
+        layer.reset_states()
+
+        right_padded_input = np.ones((num_samples, timesteps))
+        right_padded_input[0, -1:] = 0
+        right_padded_input[1, -2:] = 0
+        out7 = model.predict(right_padded_input)
+
+        np.testing.assert_allclose(out7, out6, atol=1e-5)
+"""
+
+if __name__ == '__main__':
+    tf.test.main()

From 1fa64cf02a8fab4a5d25335db65cd51e19ff87d8 Mon Sep 17 00:00:00 2001
From: UH <554c46@gmail.com>
Date: Wed, 8 Jan 2020 20:38:46 +0100
Subject: [PATCH 02/28] code-format run

---
 tensorflow_addons/rnn/__init__.py             |   4 +-
 tensorflow_addons/rnn/layernorm_simplernn.py  | 103 +++++++++---------
 .../rnn/layernorm_simplernn_test.py           |  53 ++++-----
 3 files changed, 81 insertions(+), 79 deletions(-)

diff --git a/tensorflow_addons/rnn/__init__.py b/tensorflow_addons/rnn/__init__.py
index fd6263ea30..1c32ae2930 100644
--- a/tensorflow_addons/rnn/__init__.py
+++ b/tensorflow_addons/rnn/__init__.py
@@ -20,5 +20,5 @@
 
 from tensorflow_addons.rnn.cell import LayerNormLSTMCell
 from tensorflow_addons.rnn.cell import NASCell
-from tensorflow_addons.rnn.layernorm_simplernn import (
-    LayernormSimpleRNN, LayernormSimpleRNNCell)
+from tensorflow_addons.rnn.layernorm_simplernn import (LayernormSimpleRNN,
+                                                       LayernormSimpleRNNCell)
diff --git a/tensorflow_addons/rnn/layernorm_simplernn.py b/tensorflow_addons/rnn/layernorm_simplernn.py
index 3dfd026a6a..cd4f504fb5 100644
--- a/tensorflow_addons/rnn/layernorm_simplernn.py
+++ b/tensorflow_addons/rnn/layernorm_simplernn.py
@@ -122,27 +122,28 @@ class LayernormSimpleRNNCell(SimpleRNNCell):
     ```
     """
 
-    def __init__(self,
-                 units,
-                 activation='tanh',
-                 use_bias=True,
-                 use_layernorm=False,  # NEW(!)
-                 layernorm_epsilon=1e-05,  # NEW(!)
-                 kernel_initializer='glorot_uniform',
-                 recurrent_initializer='orthogonal',
-                 bias_initializer='zeros',
-                 gamma_initializer='ones',  # NEW(!)
-                 kernel_regularizer=None,
-                 recurrent_regularizer=None,
-                 bias_regularizer=None,
-                 gamma_regularizer=None,  # NEW(!)
-                 kernel_constraint=None,
-                 recurrent_constraint=None,
-                 bias_constraint=None,
-                 gamma_constraint=None,  # NEW(!)
-                 dropout=0.,
-                 recurrent_dropout=0.,
-                 **kwargs):
+    def __init__(
+            self,
+            units,
+            activation='tanh',
+            use_bias=True,
+            use_layernorm=False,  # NEW(!)
+            layernorm_epsilon=1e-05,  # NEW(!)
+            kernel_initializer='glorot_uniform',
+            recurrent_initializer='orthogonal',
+            bias_initializer='zeros',
+            gamma_initializer='ones',  # NEW(!)
+            kernel_regularizer=None,
+            recurrent_regularizer=None,
+            bias_regularizer=None,
+            gamma_regularizer=None,  # NEW(!)
+            kernel_constraint=None,
+            recurrent_constraint=None,
+            bias_constraint=None,
+            gamma_constraint=None,  # NEW(!)
+            dropout=0.,
+            recurrent_dropout=0.,
+            **kwargs):
         self.use_layernorm = use_layernorm
         SimpleRNNCell.__init__(
             self,
@@ -214,10 +215,7 @@ def call(self, inputs, states, training=None):
     # use SimpleRNNCell's get_initial_state method
 
     def get_config(self):
-        config = {
-            'use_layernorm':
-                self.use_layernorm
-        }
+        config = {'use_layernorm': self.use_layernorm}
         cell_config = SimpleRNNCell.get_config(self)
         del cell_config['name']
         if self.use_layernorm:
@@ -343,33 +341,34 @@ class LayernormSimpleRNN(SimpleRNN):
     ```
     """
 
-    def __init__(self,
-                 units,
-                 activation='tanh',
-                 use_bias=True,
-                 use_layernorm=False,  # NEW(!)
-                 layernorm_epsilon=1e-05,  # NEW(!)
-                 kernel_initializer='glorot_uniform',
-                 recurrent_initializer='orthogonal',
-                 bias_initializer='zeros',
-                 gamma_initializer='ones',  # NEW(!)
-                 kernel_regularizer=None,
-                 recurrent_regularizer=None,
-                 bias_regularizer=None,
-                 gamma_regularizer=None,  # NEW(!)
-                 activity_regularizer=None,
-                 kernel_constraint=None,
-                 recurrent_constraint=None,
-                 bias_constraint=None,
-                 gamma_constraint=None,  # NEW(!)
-                 dropout=0.,
-                 recurrent_dropout=0.,
-                 return_sequences=False,
-                 return_state=False,
-                 go_backwards=False,
-                 stateful=False,
-                 unroll=False,
-                 **kwargs):
+    def __init__(
+            self,
+            units,
+            activation='tanh',
+            use_bias=True,
+            use_layernorm=False,  # NEW(!)
+            layernorm_epsilon=1e-05,  # NEW(!)
+            kernel_initializer='glorot_uniform',
+            recurrent_initializer='orthogonal',
+            bias_initializer='zeros',
+            gamma_initializer='ones',  # NEW(!)
+            kernel_regularizer=None,
+            recurrent_regularizer=None,
+            bias_regularizer=None,
+            gamma_regularizer=None,  # NEW(!)
+            activity_regularizer=None,
+            kernel_constraint=None,
+            recurrent_constraint=None,
+            bias_constraint=None,
+            gamma_constraint=None,  # NEW(!)
+            dropout=0.,
+            recurrent_dropout=0.,
+            return_sequences=False,
+            return_state=False,
+            go_backwards=False,
+            stateful=False,
+            unroll=False,
+            **kwargs):
         # 'implementation' warning was never relevant for LayernormSimpleRNN
         cell = LayernormSimpleRNNCell(
             units,
diff --git a/tensorflow_addons/rnn/layernorm_simplernn_test.py b/tensorflow_addons/rnn/layernorm_simplernn_test.py
index 3c95a76ebd..01f0c6c070 100644
--- a/tensorflow_addons/rnn/layernorm_simplernn_test.py
+++ b/tensorflow_addons/rnn/layernorm_simplernn_test.py
@@ -33,7 +33,6 @@
 
 @test_utils.run_all_in_graph_and_eager_modes
 class LayernormSimpleRNNTest(tf.test.TestCase):
-
     def test_return_sequences_layernorm_rnn(self):
         num_samples = 2
         timesteps = 3
@@ -41,9 +40,11 @@ def test_return_sequences_layernorm_rnn(self):
         units = 2
         testing_utils.layer_test(
             lnrnn.LayernormSimpleRNN,
-            kwargs={'units': units,
-                    'use_layernorm': True,
-                    'return_sequences': True},
+            kwargs={
+                'units': units,
+                'use_layernorm': True,
+                'return_sequences': True
+            },
             input_shape=(num_samples, timesteps, embedding_dim))
 
     def test_float64_layernorm_rnn(self):
@@ -53,10 +54,12 @@ def test_float64_layernorm_rnn(self):
         units = 2
         testing_utils.layer_test(
             lnrnn.LayernormSimpleRNN,
-            kwargs={'units': units,
-                    'use_layernorm': True,
-                    'return_sequences': True,
-                    'dtype': 'float64'},
+            kwargs={
+                'units': units,
+                'use_layernorm': True,
+                'return_sequences': True,
+                'dtype': 'float64'
+            },
             input_shape=(num_samples, timesteps, embedding_dim),
             input_dtype='float64')
 
@@ -66,9 +69,7 @@ def test_dynamic_behavior_layernorm_rnn(self):
         embedding_dim = 4
         units = 2
         layer = lnrnn.LayernormSimpleRNN(
-            units,
-            use_layernorm=True,
-            input_shape=(None, embedding_dim))
+            units, use_layernorm=True, input_shape=(None, embedding_dim))
         model = keras.models.Sequential()
         model.add(layer)
         model.compile('rmsprop', 'mse')
@@ -85,10 +86,12 @@ def test_dropout_layernorm_rnn(self):
         units = 2
         testing_utils.layer_test(
             lnrnn.LayernormSimpleRNN,
-            kwargs={'units': units,
-                    'use_layernorm': True,
-                    'dropout': 0.1,
-                    'recurrent_dropout': 0.1},
+            kwargs={
+                'units': units,
+                'use_layernorm': True,
+                'dropout': 0.1,
+                'recurrent_dropout': 0.1
+            },
             input_shape=(num_samples, timesteps, embedding_dim))
 
     def test_constraints_layernorm_rnn(self):
@@ -121,21 +124,19 @@ def test_with_masking_layer_layernorm_rnn(self):
         targets /= targets.sum(axis=-1, keepdims=True)
         model = keras.models.Sequential()
         model.add(keras.layers.Masking(input_shape=(3, 4)))
-        model.add(layer_class(
-            units=5,
-            use_layernorm=True,
-            return_sequences=True,
-            unroll=False))
+        model.add(
+            layer_class(
+                units=5,
+                use_layernorm=True,
+                return_sequences=True,
+                unroll=False))
         model.compile(loss='categorical_crossentropy', optimizer='rmsprop')
         model.fit(inputs, targets, epochs=1, batch_size=2, verbose=1)
 
     def test_from_config_layernorm_rnn(self):
         layer_class = lnrnn.LayernormSimpleRNN
         for stateful in (False, True):
-            l1 = layer_class(
-                units=1,
-                use_layernorm=True,
-                stateful=stateful)
+            l1 = layer_class(units=1, use_layernorm=True, stateful=stateful)
             l2 = layer_class.from_config(l1.get_config())
             assert l1.get_config() == l2.get_config()
 
@@ -152,7 +153,7 @@ def test_regularizers_layernorm_rnn(self):
             recurrent_regularizer=keras.regularizers.l1(0.01),
             bias_regularizer='l2',
             gamma_regularizer='l2')
-            # activity_regularizer='l1'  # DOESN'T DO ANYTHING
+        # activity_regularizer='l1'  # DOESN'T DO ANYTHING
         layer.build((None, None, 2))
         self.assertEqual(len(layer.losses), 4)
 
@@ -162,6 +163,8 @@ def test_regularizers_layernorm_rnn(self):
         #    self.assertEqual(len(layer.losses), 4)
         #else:
         #    self.assertEqual(len(layer.get_losses_for(x)), 1)
+
+
 """
 STILL FAILS
     def test_statefulness_layernorm_rnn(self):

From 5a49582b8ef37d911827570c704cceb9028cd672 Mon Sep 17 00:00:00 2001
From: UH <554c46@gmail.com>
Date: Thu, 9 Jan 2020 08:18:52 +0100
Subject: [PATCH 03/28] use super instead of calling the parent class

---
 tensorflow_addons/rnn/layernorm_simplernn.py | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/tensorflow_addons/rnn/layernorm_simplernn.py b/tensorflow_addons/rnn/layernorm_simplernn.py
index cd4f504fb5..bb61fb8a85 100644
--- a/tensorflow_addons/rnn/layernorm_simplernn.py
+++ b/tensorflow_addons/rnn/layernorm_simplernn.py
@@ -181,7 +181,8 @@ def __init__(
 
     # @tf_utils.shape_type_conversion
     def build(self, input_shape):
-        SimpleRNNCell.build(self, input_shape)
+        # SimpleRNNCell.build(self, input_shape)
+        super(LayernormSimpleRNNCell, self).build(input_shape)
         if self.use_layernorm:
             # LayerNormalization.build(self, (None, self.units))
             self.layernorm.build((None, self.units))

From 1d320413498cd33efc7eefa2b51bb2e78f87ef05 Mon Sep 17 00:00:00 2001
From: UH <554c46@gmail.com>
Date: Thu, 9 Jan 2020 10:20:59 +0100
Subject: [PATCH 04/28] deactivate layernorm's bias term (beta) for centering,
 and apply the normal self.bias term after scaling with layernorm for
 centering. docstring with explanatory formulas added to cell's call method

---
 tensorflow_addons/rnn/layernorm_simplernn.py  | 88 +++++++++++++++----
 .../rnn/layernorm_simplernn_test.py           |  4 +-
 2 files changed, 72 insertions(+), 20 deletions(-)

diff --git a/tensorflow_addons/rnn/layernorm_simplernn.py b/tensorflow_addons/rnn/layernorm_simplernn.py
index bb61fb8a85..c62151b392 100644
--- a/tensorflow_addons/rnn/layernorm_simplernn.py
+++ b/tensorflow_addons/rnn/layernorm_simplernn.py
@@ -149,16 +149,16 @@ def __init__(
             self,
             units,
             activation=activation,
-            use_bias=False if use_layernorm else use_bias,
+            use_bias=use_bias,
             kernel_initializer=kernel_initializer,
             recurrent_initializer=recurrent_initializer,
-            bias_initializer=None if use_layernorm else bias_initializer,
+            bias_initializer=bias_initializer,
             kernel_regularizer=kernel_regularizer,
             recurrent_regularizer=recurrent_regularizer,
-            bias_regularizer=None if use_layernorm else bias_regularizer,
+            bias_regularizer=bias_regularizer,
             kernel_constraint=kernel_constraint,
             recurrent_constraint=recurrent_constraint,
-            bias_constraint=None if use_layernorm else bias_constraint,
+            bias_constraint=bias_constraint,
             dropout=dropout,
             recurrent_dropout=recurrent_dropout,
             dtype=kwargs.get('dtype'),
@@ -168,13 +168,13 @@ def __init__(
             self.layernorm = LayerNormalization(
                 axis=-1,
                 epsilon=layernorm_epsilon,
-                center=True,
+                center=False,
                 scale=True,
-                beta_initializer=bias_initializer,
+                beta_initializer=None,
                 gamma_initializer=gamma_initializer,
-                beta_regularizer=bias_regularizer,
+                beta_regularizer=None,
                 gamma_regularizer=gamma_regularizer,
-                beta_constraint=bias_constraint,
+                beta_constraint=None,
                 gamma_constraint=gamma_constraint,
                 dtype=kwargs.get('dtype'),
                 trainable=kwargs.get('trainable', True))
@@ -188,6 +188,54 @@ def build(self, input_shape):
             self.layernorm.build((None, self.units))
 
     def call(self, inputs, states, training=None):
+        """Formulas.
+
+        Notation:
+            y_t : Cell output at t (`output`)
+            y_{t-1} : Previous cell output at t-1 (`prev_output`)
+            x_t : The new input at t (`inputs`)
+            W_xh : Weight matrix for inputs x_t (`self.kernel`)
+            W_hh : Weights for prev. outputs y_{t-1} (`self.recurrent_kernel`)
+            b : Bias term for centering (`self.bias`)
+            d1 : Dropout function for x_t (`inputs * dp_mask`)
+            d2 : Dropout function for y_{t-1} (`prev_output * rec_dp_mask`)
+            ln : Scaling function from layer normalization (`self.layernorm`)
+            f : Activation function (`self.activation`)
+
+        Case 1:
+            Simple RNN, only with bias and activation
+              y_t = f(x_t * W_xh + y_{t-1} * W_hh + b)
+            or
+              net = x_t * W_xh + y_{t-1} * W_hh
+              y_t = f(net + b)
+
+        Case 2:
+            RNN with, layer normalization (only scaling), bias and activation.
+              y_t = f(ln(x_t * W_xh + y_{t-1} * W_hh) + b)
+            or
+              net = x_t * W_xh + y_{t-1} * W_hh
+              y_t = f(ln(net) + b)
+
+            Layer normalization with scaling and centering in one go (see Ba et
+            al (2016), page 3, formula 4, https://arxiv.org/abs/1607.06450)
+            is the same as layer normalization only with scaling, and
+            centering directly afterwards.
+
+        Case 3:
+            RNN, with dropout, bias, and activation (no scaling from LN)
+              y_t = f(d1(x_t) * W_xh + d2(y_{t-1}) * W_hh + b)
+            or
+              net = d1(x_t) * W_xh + d2(y_{t-1}) * W_hh
+              y_t = f(net + b)
+
+        Case 4:
+            Everyting is used, i.e. all dropouts, layer normalization
+            (only scaling), bias, and activation
+              y_t = f(ln(d1(x_t) * W_xh + d2(y_{t-1}) * W_hh) + b)
+            or
+              net = d1(x_t) * W_xh + d2(y_{t-1}) * W_hh
+              y_t = f(ln(net) + b)
+        """
         prev_output = states[0]
         dp_mask = self.get_dropout_mask_for_cell(inputs, training)
         rec_dp_mask = self.get_recurrent_dropout_mask_for_cell(
@@ -197,17 +245,21 @@ def call(self, inputs, states, training=None):
             h = K.dot(inputs * dp_mask, self.kernel)
         else:
             h = K.dot(inputs, self.kernel)
-        if self.bias is not None:
-            h = K.bias_add(h, self.bias)
+
+        # don't add bias to "h" here
+        # add bias after scaling with layer normalization to "output"
 
         if rec_dp_mask is not None:
             prev_output = prev_output * rec_dp_mask
-        output = h + K.dot(prev_output, self.recurrent_kernel)
+        output = h + K.dot(prev_output, self.recurrent_kernel)  # "net"
 
         if self.use_layernorm:
             # output = LayerNormalization.call(self, output)
             output = self.layernorm(output)
 
+        if self.bias is not None:
+            output = K.bias_add(output, self.bias)
+
         if self.activation is not None:
             output = self.activation(output)
 
@@ -222,14 +274,14 @@ def get_config(self):
         if self.use_layernorm:
             # ln_config = LayerNormalization.get_config(self)
             ln_config = self.layernorm.get_config()
-            ln_config['bias_initializer'] = ln_config.pop("beta_initializer")
-            ln_config['bias_regularizer'] = ln_config.pop("beta_regularizer")
-            ln_config['bias_constraint'] = ln_config.pop("beta_constraint")
+            ln_config = {
+                key: ln_config[key]
+                for key in [
+                    "epsilon", "gamma_initializer", "gamma_regularizer",
+                    "gamma_constraint"
+                ] if key in ln_config
+            }
             ln_config['layernorm_epsilon'] = ln_config.pop("epsilon")
-            del ln_config['axis']
-            del ln_config['center']
-            del ln_config['scale']
-            del ln_config['name']
         else:
             ln_config = {}
         return {**config, **cell_config, **ln_config}
diff --git a/tensorflow_addons/rnn/layernorm_simplernn_test.py b/tensorflow_addons/rnn/layernorm_simplernn_test.py
index 01f0c6c070..985def8ead 100644
--- a/tensorflow_addons/rnn/layernorm_simplernn_test.py
+++ b/tensorflow_addons/rnn/layernorm_simplernn_test.py
@@ -109,12 +109,12 @@ def test_constraints_layernorm_rnn(self):
             input_shape=(None, embedding_dim),
             kernel_constraint=k_constraint,
             recurrent_constraint=r_constraint,
-            bias_constraint=b_constraint,  # Will be beta!
+            bias_constraint=b_constraint,
             gamma_constraint=g_constraint)
         layer.build((None, None, embedding_dim))
         self.assertEqual(layer.cell.kernel.constraint, k_constraint)
         self.assertEqual(layer.cell.recurrent_kernel.constraint, r_constraint)
-        self.assertEqual(layer.cell.layernorm.beta.constraint, b_constraint)
+        self.assertEqual(layer.cell.bias.constraint, b_constraint)
         self.assertEqual(layer.cell.layernorm.gamma.constraint, g_constraint)
 
     def test_with_masking_layer_layernorm_rnn(self):

From 3f24525b62b0929d28eb5c3c97aa846c9d340659 Mon Sep 17 00:00:00 2001
From: UH <554c46@gmail.com>
Date: Thu, 9 Jan 2020 10:38:03 +0100
Subject: [PATCH 05/28] use_layernorm=True set as default

---
 tensorflow_addons/rnn/layernorm_simplernn.py | 16 ++++++++--------
 1 file changed, 8 insertions(+), 8 deletions(-)

diff --git a/tensorflow_addons/rnn/layernorm_simplernn.py b/tensorflow_addons/rnn/layernorm_simplernn.py
index c62151b392..f8676a97bf 100644
--- a/tensorflow_addons/rnn/layernorm_simplernn.py
+++ b/tensorflow_addons/rnn/layernorm_simplernn.py
@@ -53,8 +53,8 @@ class LayernormSimpleRNNCell(SimpleRNNCell):
         If you pass `None`, no activation is applied
         (ie. "linear" activation: `a(x) = x`).
       use_bias: Boolean, (default `True`), whether the layer uses a bias vector.
-      use_layernorm: Boolean, (default `False`), whether layer uses layer
-        normalization instead of a bias vector.
+      use_layernorm: Boolean, (default `True`), whether to apply layer normalization
+        (scaling only).
       layernorm_epsilon: Float, (default `1e-5`), Small float added to variance
         to avoid dividing by zero.
       kernel_initializer: Initializer for the `kernel` weights matrix,
@@ -127,7 +127,7 @@ def __init__(
             units,
             activation='tanh',
             use_bias=True,
-            use_layernorm=False,  # NEW(!)
+            use_layernorm=True,  # NEW(!)
             layernorm_epsilon=1e-05,  # NEW(!)
             kernel_initializer='glorot_uniform',
             recurrent_initializer='orthogonal',
@@ -306,8 +306,8 @@ class LayernormSimpleRNN(SimpleRNN):
         If you pass None, no activation is applied
         (ie. "linear" activation: `a(x) = x`).
       use_bias: Boolean, (default `True`), whether the layer uses a bias vector.
-      use_layernorm: Boolean, (default `False`), whether layer uses layer
-        normalization instead of a bias vector.
+      use_layernorm: Boolean, (default `True`), whether to apply layer normalization
+        (scaling only).
       layernorm_epsilon: Float, (default `1e-5`), Small float added to variance
         to avoid dividing by zero.
       kernel_initializer: Initializer for the `kernel` weights matrix,
@@ -381,12 +381,12 @@ class LayernormSimpleRNN(SimpleRNN):
 
     ```python
     inputs = np.random.random([32, 10, 8]).astype(np.float32)
-    model = tf.keras.layers.LayernormSimpleRNN(4, use_layernorm=True)
+    model = tf.keras.layers.LayernormSimpleRNN(4)
 
     output = model(inputs)  # The output has shape `[32, 4]`.
 
     model = tf.keras.layers.LayernormSimpleRNN(
-        4, use_layernorm=True, return_sequences=True, return_state=True)
+        4, return_sequences=True, return_state=True)
 
     # whole_sequence_output has shape `[32, 10, 4]`.
     # final_state has shape `[32, 4]`.
@@ -399,7 +399,7 @@ def __init__(
             units,
             activation='tanh',
             use_bias=True,
-            use_layernorm=False,  # NEW(!)
+            use_layernorm=True,  # NEW(!)
             layernorm_epsilon=1e-05,  # NEW(!)
             kernel_initializer='glorot_uniform',
             recurrent_initializer='orthogonal',

From 764419d6d63fef0741645f7b043a2c1aface4e17 Mon Sep 17 00:00:00 2001
From: UH <554c46@gmail.com>
Date: Thu, 9 Jan 2020 13:51:59 +0100
Subject: [PATCH 06/28] import alligned with cell.py, examples in docstring
 corrected

---
 tensorflow_addons/rnn/layernorm_simplernn.py | 78 ++++++++++----------
 1 file changed, 38 insertions(+), 40 deletions(-)

diff --git a/tensorflow_addons/rnn/layernorm_simplernn.py b/tensorflow_addons/rnn/layernorm_simplernn.py
index f8676a97bf..6d0eb50cb2 100644
--- a/tensorflow_addons/rnn/layernorm_simplernn.py
+++ b/tensorflow_addons/rnn/layernorm_simplernn.py
@@ -17,34 +17,24 @@
 from __future__ import division
 from __future__ import print_function
 
-import collections
-
-import numpy as np
 import tensorflow as tf
-from tensorflow.keras.layers import SimpleRNN, SimpleRNNCell
-from tensorflow.keras.layers import LayerNormalization
-
-from tensorflow.python.keras import backend as K  # for SimpleRNNCell.call()
-# from tensorflow.python.keras import regularizers  # for activity_regularizer
-# from tensorflow.python.keras.engine.input_spec import InputSpec  # for SimpleRNN.__init__()
-# from tensorflow.python.keras.utils import tf_utils  # for shape_type_conversion
+import tensorflow.keras as keras
 
 
 @tf.keras.utils.register_keras_serializable(package='Addons')
 # class LayernormSimpleRNNCell(SimpleRNNCell, LayerNormalization):
-class LayernormSimpleRNNCell(SimpleRNNCell):
-    """Cell class for LayernormSimpleRNN.
+class LayernormSimpleRNNCell(keras.layers.SimpleRNNCell):
+    """Cell class for LayernormSimpleRNN
 
     Motivation:
     - Drop-In Replacement for keras.layers.SimpleRNNCell
-    - demonstrate how to add LayerNormalization to all RNNs as option
-    - see Ba et al. (2016), and tf.keras.layers.LayerNormalization
-
-    See [the Keras RNN API guide](https://www.tensorflow.org/guide/keras/rnn)
-    for details about the usage of RNN API.
+    - demonstrate how to add keras.layers.LayerNormalization 
+       to all RNNs by introducing the `use_layernorm` argument
 
-    This class processes one step within the whole time sequence input, whereas
-    `tf.keras.layer.LayernormSimpleRNN` processes the whole sequence.
+    References:
+    [1] Ba, Jimmy Lei, Jamie Ryan Kiros, and Geoffrey E. Hinton. 
+        “Layer Normalization.” ArXiv:1607.06450 [Cs, Stat], 
+        July 21, 2016. http://arxiv.org/abs/1607.06450
 
     Arguments:
       units: Positive integer, dimensionality of the output space.
@@ -105,14 +95,17 @@ class LayernormSimpleRNNCell(SimpleRNNCell):
     Examples:
 
     ```python
+    import numpy as np
+    import tensorflow.keras as keras
+    import tensorflow_addons as tfa
+
     inputs = np.random.random([32, 10, 8]).astype(np.float32)
-    rnn = tf.keras.layers.RNN(
-      tf.keras.layers.LayernormSimpleRNNCell(4, use_layernorm=True))
+    rnn = keras.layers.RNN(tfa.rnn.LayernormSimpleRNNCell(4))
 
     output = rnn(inputs)  # The output has shape `[32, 4]`.
 
-    rnn = tf.keras.layers.RNN(
-        tf.keras.layers.LayernormSimpleRNNCell(4, use_layernorm=True),
+    rnn = keras.layers.RNN(
+        tfa.rnn.LayernormSimpleRNNCell(4),
         return_sequences=True,
         return_state=True)
 
@@ -145,7 +138,7 @@ def __init__(
             recurrent_dropout=0.,
             **kwargs):
         self.use_layernorm = use_layernorm
-        SimpleRNNCell.__init__(
+        keras.layers.SimpleRNNCell.__init__(
             self,
             units,
             activation=activation,
@@ -165,7 +158,7 @@ def __init__(
             trainable=kwargs.get('trainable', True))
         if use_layernorm:
             # LayerNormalization.__init__(self,
-            self.layernorm = LayerNormalization(
+            self.layernorm = keras.layers.LayerNormalization(
                 axis=-1,
                 epsilon=layernorm_epsilon,
                 center=False,
@@ -242,23 +235,23 @@ def call(self, inputs, states, training=None):
             prev_output, training)
 
         if dp_mask is not None:
-            h = K.dot(inputs * dp_mask, self.kernel)
+            h = keras.backend.dot(inputs * dp_mask, self.kernel)
         else:
-            h = K.dot(inputs, self.kernel)
+            h = keras.backend.dot(inputs, self.kernel)
 
         # don't add bias to "h" here
         # add bias after scaling with layer normalization to "output"
 
         if rec_dp_mask is not None:
             prev_output = prev_output * rec_dp_mask
-        output = h + K.dot(prev_output, self.recurrent_kernel)  # "net"
+        output = h + keras.backend.dot(prev_output, self.recurrent_kernel)  # "net"
 
         if self.use_layernorm:
             # output = LayerNormalization.call(self, output)
             output = self.layernorm(output)
 
         if self.bias is not None:
-            output = K.bias_add(output, self.bias)
+            output = keras.backend.bias_add(output, self.bias)
 
         if self.activation is not None:
             output = self.activation(output)
@@ -269,7 +262,7 @@ def call(self, inputs, states, training=None):
 
     def get_config(self):
         config = {'use_layernorm': self.use_layernorm}
-        cell_config = SimpleRNNCell.get_config(self)
+        cell_config = keras.layers.SimpleRNNCell.get_config(self)
         del cell_config['name']
         if self.use_layernorm:
             # ln_config = LayerNormalization.get_config(self)
@@ -288,16 +281,18 @@ def get_config(self):
 
 
 @tf.keras.utils.register_keras_serializable(package='Addons')
-class LayernormSimpleRNN(SimpleRNN):
-    """Fully-connected RNN where the output is to be fed back to input.
+class LayernormSimpleRNN(keras.layers.SimpleRNN):
+    """Fully-connected RNN with Layer Normalization.
 
     Motivation:
     - Drop-In Replacement for keras.layers.SimpleRNN
-    - demonstrate how to add LayerNormalization to all RNNs as option
-    - see Ba et al. (2016), and tf.keras.layers.LayerNormalization
+    - demonstrate how to add keras.layers.LayerNormalization 
+       to all RNNs by introducing the `use_layernorm` argument
 
-    See [the Keras RNN API guide](https://www.tensorflow.org/guide/keras/rnn)
-    for details about the usage of RNN API.
+    References:
+    [1] Ba, Jimmy Lei, Jamie Ryan Kiros, and Geoffrey E. Hinton. 
+        “Layer Normalization.” ArXiv:1607.06450 [Cs, Stat], 
+        July 21, 2016. http://arxiv.org/abs/1607.06450
 
     Arguments:
       units: Positive integer, dimensionality of the output space.
@@ -380,12 +375,15 @@ class LayernormSimpleRNN(SimpleRNN):
     Examples:
 
     ```python
+    import numpy as np
+    import tensorflow_addons as tfa
+
     inputs = np.random.random([32, 10, 8]).astype(np.float32)
-    model = tf.keras.layers.LayernormSimpleRNN(4)
+    model = tfa.rnn.LayernormSimpleRNN(4)
 
     output = model(inputs)  # The output has shape `[32, 4]`.
 
-    model = tf.keras.layers.LayernormSimpleRNN(
+    model = tfa.rnn.LayernormSimpleRNN(
         4, return_sequences=True, return_state=True)
 
     # whole_sequence_output has shape `[32, 10, 4]`.
@@ -446,7 +444,7 @@ def __init__(
             recurrent_dropout=recurrent_dropout,
             dtype=kwargs.get('dtype'),
             trainable=kwargs.get('trainable', True))
-        super(SimpleRNN, self).__init__(  # call RNN's init
+        super(keras.layers.SimpleRNN, self).__init__(  # call RNN's init
             cell,
             return_sequences=return_sequences,
             return_state=return_state,
@@ -481,7 +479,7 @@ def gamma_constraint(self):
         return self.cell.gamma_constraint
 
     def get_config(self):
-        base_config = super(SimpleRNN, self).get_config()  # get RNN's config
+        base_config = super(keras.layers.SimpleRNN, self).get_config()  # get RNN's config
         del base_config['cell']
         cell_config = self.cell.get_config()
         return {**base_config, **cell_config}

From 8da0cc00c30b10ca83107af5fd145f050e8ddf7b Mon Sep 17 00:00:00 2001
From: UH <554c46@gmail.com>
Date: Thu, 9 Jan 2020 14:44:03 +0100
Subject: [PATCH 07/28] import aligned with cell_test.py

---
 .../rnn/layernorm_simplernn_test.py           | 105 +++---------------
 1 file changed, 17 insertions(+), 88 deletions(-)

diff --git a/tensorflow_addons/rnn/layernorm_simplernn_test.py b/tensorflow_addons/rnn/layernorm_simplernn_test.py
index 985def8ead..e8467b6521 100644
--- a/tensorflow_addons/rnn/layernorm_simplernn_test.py
+++ b/tensorflow_addons/rnn/layernorm_simplernn_test.py
@@ -22,13 +22,10 @@
 import tensorflow as tf
 import tensorflow.keras as keras
 
-from tensorflow_addons.utils import test_utils  # for eager mode
-#from tensorflow.python.eager import context  # to check eager mode
-from tensorflow.python.keras import testing_utils  # for 'layer_test'
-from tensorflow.python.training import gradient_descent  # for GD
-
-import tensorflow_addons.rnn.layernorm_simplernn as lnrnn
-# import layernorm_simplernn as lnrnn
+from tensorflow_addons.utils import test_utils
+# from tensorflow_addons.rnn import LayernormSimpleRNN
+from tensorflow_addons.rnn.layernorm_simplernn import LayernormSimpleRNN
+# from layernorm_simplernn import LayernormSimpleRNN
 
 
 @test_utils.run_all_in_graph_and_eager_modes
@@ -38,8 +35,8 @@ def test_return_sequences_layernorm_rnn(self):
         timesteps = 3
         embedding_dim = 4
         units = 2
-        testing_utils.layer_test(
-            lnrnn.LayernormSimpleRNN,
+        test_utils.layer_test(
+            LayernormSimpleRNN,
             kwargs={
                 'units': units,
                 'use_layernorm': True,
@@ -52,8 +49,8 @@ def test_float64_layernorm_rnn(self):
         timesteps = 3
         embedding_dim = 4
         units = 2
-        testing_utils.layer_test(
-            lnrnn.LayernormSimpleRNN,
+        test_utils.layer_test(
+            LayernormSimpleRNN,
             kwargs={
                 'units': units,
                 'use_layernorm': True,
@@ -68,7 +65,7 @@ def test_dynamic_behavior_layernorm_rnn(self):
         timesteps = 3
         embedding_dim = 4
         units = 2
-        layer = lnrnn.LayernormSimpleRNN(
+        layer = LayernormSimpleRNN(
             units, use_layernorm=True, input_shape=(None, embedding_dim))
         model = keras.models.Sequential()
         model.add(layer)
@@ -77,15 +74,15 @@ def test_dynamic_behavior_layernorm_rnn(self):
         y = np.random.random((num_samples, units))
         model.train_on_batch(x, y)
 
-    # test_implementation_mode_layernorm_rnn deleted
+    # DELETED TEST: test_implementation_mode_layernorm_rnn
 
     def test_dropout_layernorm_rnn(self):
         num_samples = 2
         timesteps = 3
         embedding_dim = 4
         units = 2
-        testing_utils.layer_test(
-            lnrnn.LayernormSimpleRNN,
+        test_utils.layer_test(
+            LayernormSimpleRNN,
             kwargs={
                 'units': units,
                 'use_layernorm': True,
@@ -96,7 +93,7 @@ def test_dropout_layernorm_rnn(self):
 
     def test_constraints_layernorm_rnn(self):
         embedding_dim = 4
-        layer_class = lnrnn.LayernormSimpleRNN
+        layer_class = LayernormSimpleRNN
         k_constraint = keras.constraints.max_norm(0.01)
         r_constraint = keras.constraints.max_norm(0.01)
         b_constraint = keras.constraints.max_norm(0.01)
@@ -118,7 +115,7 @@ def test_constraints_layernorm_rnn(self):
         self.assertEqual(layer.cell.layernorm.gamma.constraint, g_constraint)
 
     def test_with_masking_layer_layernorm_rnn(self):
-        layer_class = lnrnn.LayernormSimpleRNN
+        layer_class = LayernormSimpleRNN
         inputs = np.random.random((2, 3, 4))
         targets = np.abs(np.random.random((2, 3, 5)))
         targets /= targets.sum(axis=-1, keepdims=True)
@@ -134,7 +131,7 @@ def test_with_masking_layer_layernorm_rnn(self):
         model.fit(inputs, targets, epochs=1, batch_size=2, verbose=1)
 
     def test_from_config_layernorm_rnn(self):
-        layer_class = lnrnn.LayernormSimpleRNN
+        layer_class = LayernormSimpleRNN
         for stateful in (False, True):
             l1 = layer_class(units=1, use_layernorm=True, stateful=stateful)
             l2 = layer_class.from_config(l1.get_config())
@@ -142,7 +139,7 @@ def test_from_config_layernorm_rnn(self):
 
     def test_regularizers_layernorm_rnn(self):
         embedding_dim = 4
-        layer_class = lnrnn.LayernormSimpleRNN
+        layer_class = LayernormSimpleRNN
         layer = layer_class(
             5,
             use_layernorm=True,
@@ -164,76 +161,8 @@ def test_regularizers_layernorm_rnn(self):
         #else:
         #    self.assertEqual(len(layer.get_losses_for(x)), 1)
 
+    # STILL MISSING: test_statefulness_layernorm_rnn()
 
-"""
-STILL FAILS
-    def test_statefulness_layernorm_rnn(self):
-        num_samples = 2
-        timesteps = 3
-        embedding_dim = 4
-        units = 2
-        layer_class = lnrnn.LayernormSimpleRNN
-        model = keras.models.Sequential()
-        model.add(
-            keras.layers.Embedding(
-                4,
-                embedding_dim,
-                mask_zero=True,
-                input_length=timesteps,
-                batch_input_shape=(num_samples, timesteps)))
-        layer = layer_class(
-            units,
-            use_layernorm=True,
-            return_sequences=False,
-            stateful=True,
-            weights=None)
-        model.add(layer)
-        model.compile(
-            optimizer=gradient_descent.GradientDescentOptimizer(0.01),
-            loss='mse')
-        out1 = model.predict(np.ones((num_samples, timesteps)))
-        self.assertEqual(out1.shape, (num_samples, units))
-
-        # train once so that the states change
-        model.train_on_batch(
-            np.ones((num_samples, timesteps)), np.ones((num_samples, units)))
-        out2 = model.predict(np.ones((num_samples, timesteps)))
-
-        # if the state is not reset, output should be different
-        self.assertNotEqual(out1.max(), out2.max())
-
-        # check that output changes after states are reset
-        # (even though the model itself didn't change)
-        layer.reset_states()
-        out3 = model.predict(np.ones((num_samples, timesteps)))
-        self.assertNotEqual(out2.max(), out3.max())
-
-        # check that container-level reset_states() works
-        model.reset_states()
-        out4 = model.predict(np.ones((num_samples, timesteps)))
-        np.testing.assert_allclose(out3, out4, atol=1e-5)
-
-        # check that the call to `predict` updated the states
-        out5 = model.predict(np.ones((num_samples, timesteps)))
-        self.assertNotEqual(out4.max(), out5.max())
-
-        # Check masking
-        layer.reset_states()
-
-        left_padded_input = np.ones((num_samples, timesteps))
-        left_padded_input[0, :1] = 0
-        left_padded_input[1, :2] = 0
-        out6 = model.predict(left_padded_input)
-
-        layer.reset_states()
-
-        right_padded_input = np.ones((num_samples, timesteps))
-        right_padded_input[0, -1:] = 0
-        right_padded_input[1, -2:] = 0
-        out7 = model.predict(right_padded_input)
-
-        np.testing.assert_allclose(out7, out6, atol=1e-5)
-"""
 
 if __name__ == '__main__':
     tf.test.main()

From 6fff49fb4ee4151a4c34f364f7610283ec841a51 Mon Sep 17 00:00:00 2001
From: UH <554c46@gmail.com>
Date: Thu, 9 Jan 2020 16:14:16 +0100
Subject: [PATCH 08/28] code for LayernormSimpleRNN moved into cell.py and
 cell_test.py

---
 tensorflow_addons/rnn/BUILD                   |  10 -
 tensorflow_addons/rnn/__init__.py             |   4 +-
 tensorflow_addons/rnn/cell.py                 | 466 +++++++++++++++++
 tensorflow_addons/rnn/cell_test.py            | 137 +++++
 tensorflow_addons/rnn/layernorm_simplernn.py  | 485 ------------------
 .../rnn/layernorm_simplernn_test.py           | 168 ------
 6 files changed, 605 insertions(+), 665 deletions(-)
 delete mode 100644 tensorflow_addons/rnn/layernorm_simplernn.py
 delete mode 100644 tensorflow_addons/rnn/layernorm_simplernn_test.py

diff --git a/tensorflow_addons/rnn/BUILD b/tensorflow_addons/rnn/BUILD
index 2f2cc1b136..237d75b977 100644
--- a/tensorflow_addons/rnn/BUILD
+++ b/tensorflow_addons/rnn/BUILD
@@ -7,7 +7,6 @@ py_library(
     srcs = [
         "__init__.py",
         "cell.py",
-        "layernorm_simplernn.py",
     ],
     deps = [
         "//tensorflow_addons/utils",
@@ -22,12 +21,3 @@ py_test(
         ":rnn",
     ],
 )
-
-py_test(
-    name = "layernorm_simplernn_test",
-    size = "small",
-    srcs = ["layernorm_simplernn_test.py"],
-    deps = [
-        ":rnn",
-    ],
-)
diff --git a/tensorflow_addons/rnn/__init__.py b/tensorflow_addons/rnn/__init__.py
index 1c32ae2930..6c308d4b9e 100644
--- a/tensorflow_addons/rnn/__init__.py
+++ b/tensorflow_addons/rnn/__init__.py
@@ -20,5 +20,5 @@
 
 from tensorflow_addons.rnn.cell import LayerNormLSTMCell
 from tensorflow_addons.rnn.cell import NASCell
-from tensorflow_addons.rnn.layernorm_simplernn import (LayernormSimpleRNN,
-                                                       LayernormSimpleRNNCell)
+from tensorflow_addons.rnn.cell import (LayernormSimpleRNN,
+                                        LayernormSimpleRNNCell)
diff --git a/tensorflow_addons/rnn/cell.py b/tensorflow_addons/rnn/cell.py
index 742b2f2a29..6a676b9eeb 100644
--- a/tensorflow_addons/rnn/cell.py
+++ b/tensorflow_addons/rnn/cell.py
@@ -366,3 +366,469 @@ def _create_norm_layer(self, name):
             gamma_initializer=self.norm_gamma_initializer,
             epsilon=self.norm_epsilon,
             name=name)
+
+
+@tf.keras.utils.register_keras_serializable(package='Addons')
+# class LayernormSimpleRNNCell(SimpleRNNCell, LayerNormalization):
+class LayernormSimpleRNNCell(keras.layers.SimpleRNNCell):
+    """Cell class for LayernormSimpleRNN.
+
+    Motivation:
+    - Drop-In Replacement for keras.layers.SimpleRNNCell
+    - demonstrate how to add keras.layers.LayerNormalization
+       to all RNNs by introducing the `use_layernorm` argument
+
+    References:
+    [1] Ba, Jimmy Lei, Jamie Ryan Kiros, and Geoffrey E. Hinton.
+        “Layer Normalization.” ArXiv:1607.06450 [Cs, Stat],
+        July 21, 2016. http://arxiv.org/abs/1607.06450
+
+    Arguments:
+      units: Positive integer, dimensionality of the output space.
+      activation: Activation function to use.
+        Default: hyperbolic tangent (`tanh`).
+        If you pass `None`, no activation is applied
+        (ie. "linear" activation: `a(x) = x`).
+      use_bias: Boolean, (default `True`), whether the layer uses a bias vector.
+      use_layernorm: Boolean, (default `True`), whether to apply layer normalization
+        (scaling only).
+      layernorm_epsilon: Float, (default `1e-5`), Small float added to variance
+        to avoid dividing by zero.
+      kernel_initializer: Initializer for the `kernel` weights matrix,
+        used for the linear transformation of the inputs. Default:
+        `glorot_uniform`.
+      recurrent_initializer: Initializer for the `recurrent_kernel`
+        weights matrix, used for the linear transformation of the recurrent
+        state. Default: `orthogonal`.
+      bias_initializer: Initializer for the bias vector (`use_bias=True`) or
+         for the beta vector in layer normalization (`use_layernorm=True`).
+         Default: `zeros`.
+      gamma_initializer: Initializer for the gamma vector of the layer
+         normalization layer (`use_layernorm=True`). Default: `ones`.
+      kernel_regularizer: Regularizer function applied to the `kernel` weights
+        matrix. Default: `None`.
+      recurrent_regularizer: Regularizer function applied to the
+        `recurrent_kernel` weights matrix. Default: `None`.
+      bias_regularizer: Regularizer function applied to the bias vector
+         (`use_bias=True`) or for the beta vector of the layer normalization
+         layer (`use_layernorm=True`). Default: `None`.
+      gamma_regularizer: Regularizer function applied to the gamma vector
+         of the layer normalization layer (`use_layernorm=True`).
+         Default: `None`.
+      kernel_constraint: Constraint function applied to the `kernel` weights
+        matrix. Default: `None`.
+      recurrent_constraint: Constraint function applied to the `recurrent_kernel`
+        weights matrix. Default: `None`.
+      bias_constraint: Constraint function applied to the bias vector
+         (`use_bias=True`) or for the beta vector of the layer normalization
+         layer (`use_layernorm=True`). Default: `None`.
+      gamma_constraint: Constraint function applied to the gamma vector
+         of the layer normalization layer (`use_layernorm=True`).
+         Default: `None`.
+      dropout: Float between 0 and 1. Fraction of the units to drop for the
+        linear transformation of the inputs. Default: 0.
+      recurrent_dropout: Float between 0 and 1. Fraction of the units to drop for
+        the linear transformation of the recurrent state. Default: 0.
+
+    Call arguments:
+      inputs: A 2D tensor, with shape of `[batch, feature]`.
+      states: A 2D tensor with shape of `[batch, units]`, which is the state
+        from the previous time step. For timestep 0, the initial state provided
+        by the user will be feed to cell.
+      training: Python boolean indicating whether the layer should behave in
+        training mode or in inference mode. Only relevant when `dropout` or
+        `recurrent_dropout` is used.
+
+    Examples:
+
+    ```python
+    import numpy as np
+    import tensorflow.keras as keras
+    import tensorflow_addons as tfa
+
+    inputs = np.random.random([32, 10, 8]).astype(np.float32)
+    rnn = keras.layers.RNN(tfa.rnn.LayernormSimpleRNNCell(4))
+
+    output = rnn(inputs)  # The output has shape `[32, 4]`.
+
+    rnn = keras.layers.RNN(
+        tfa.rnn.LayernormSimpleRNNCell(4),
+        return_sequences=True,
+        return_state=True)
+
+    # whole_sequence_output has shape `[32, 10, 4]`.
+    # final_state has shape `[32, 4]`.
+    whole_sequence_output, final_state = rnn(inputs)
+    ```
+    """
+
+    def __init__(
+            self,
+            units,
+            activation='tanh',
+            use_bias=True,
+            use_layernorm=True,  # NEW(!)
+            layernorm_epsilon=1e-05,  # NEW(!)
+            kernel_initializer='glorot_uniform',
+            recurrent_initializer='orthogonal',
+            bias_initializer='zeros',
+            gamma_initializer='ones',  # NEW(!)
+            kernel_regularizer=None,
+            recurrent_regularizer=None,
+            bias_regularizer=None,
+            gamma_regularizer=None,  # NEW(!)
+            kernel_constraint=None,
+            recurrent_constraint=None,
+            bias_constraint=None,
+            gamma_constraint=None,  # NEW(!)
+            dropout=0.,
+            recurrent_dropout=0.,
+            **kwargs):
+        self.use_layernorm = use_layernorm
+        keras.layers.SimpleRNNCell.__init__(
+            self,
+            units,
+            activation=activation,
+            use_bias=use_bias,
+            kernel_initializer=kernel_initializer,
+            recurrent_initializer=recurrent_initializer,
+            bias_initializer=bias_initializer,
+            kernel_regularizer=kernel_regularizer,
+            recurrent_regularizer=recurrent_regularizer,
+            bias_regularizer=bias_regularizer,
+            kernel_constraint=kernel_constraint,
+            recurrent_constraint=recurrent_constraint,
+            bias_constraint=bias_constraint,
+            dropout=dropout,
+            recurrent_dropout=recurrent_dropout,
+            dtype=kwargs.get('dtype'),
+            trainable=kwargs.get('trainable', True))
+        if use_layernorm:
+            # LayerNormalization.__init__(self,
+            self.layernorm = keras.layers.LayerNormalization(
+                axis=-1,
+                epsilon=layernorm_epsilon,
+                center=False,
+                scale=True,
+                beta_initializer=None,
+                gamma_initializer=gamma_initializer,
+                beta_regularizer=None,
+                gamma_regularizer=gamma_regularizer,
+                beta_constraint=None,
+                gamma_constraint=gamma_constraint,
+                dtype=kwargs.get('dtype'),
+                trainable=kwargs.get('trainable', True))
+
+    # @tf_utils.shape_type_conversion
+    def build(self, input_shape):
+        # SimpleRNNCell.build(self, input_shape)
+        super(LayernormSimpleRNNCell, self).build(input_shape)
+        if self.use_layernorm:
+            # LayerNormalization.build(self, (None, self.units))
+            self.layernorm.build((None, self.units))
+
+    def call(self, inputs, states, training=None):
+        """Formulas.
+
+        Notation:
+            y_t : Cell output at t (`output`)
+            y_{t-1} : Previous cell output at t-1 (`prev_output`)
+            x_t : The new input at t (`inputs`)
+            W_xh : Weight matrix for inputs x_t (`self.kernel`)
+            W_hh : Weights for prev. outputs y_{t-1} (`self.recurrent_kernel`)
+            b : Bias term for centering (`self.bias`)
+            d1 : Dropout function for x_t (`inputs * dp_mask`)
+            d2 : Dropout function for y_{t-1} (`prev_output * rec_dp_mask`)
+            ln : Scaling function from layer normalization (`self.layernorm`)
+            f : Activation function (`self.activation`)
+
+        Case 1:
+            Simple RNN, only with bias and activation
+              y_t = f(x_t * W_xh + y_{t-1} * W_hh + b)
+            or
+              net = x_t * W_xh + y_{t-1} * W_hh
+              y_t = f(net + b)
+
+        Case 2:
+            RNN with, layer normalization (only scaling), bias and activation.
+              y_t = f(ln(x_t * W_xh + y_{t-1} * W_hh) + b)
+            or
+              net = x_t * W_xh + y_{t-1} * W_hh
+              y_t = f(ln(net) + b)
+
+            Layer normalization with scaling and centering in one go (see Ba et
+            al (2016), page 3, formula 4, https://arxiv.org/abs/1607.06450)
+            is the same as layer normalization only with scaling, and
+            centering directly afterwards.
+
+        Case 3:
+            RNN, with dropout, bias, and activation (no scaling from LN)
+              y_t = f(d1(x_t) * W_xh + d2(y_{t-1}) * W_hh + b)
+            or
+              net = d1(x_t) * W_xh + d2(y_{t-1}) * W_hh
+              y_t = f(net + b)
+
+        Case 4:
+            Everyting is used, i.e. all dropouts, layer normalization
+            (only scaling), bias, and activation
+              y_t = f(ln(d1(x_t) * W_xh + d2(y_{t-1}) * W_hh) + b)
+            or
+              net = d1(x_t) * W_xh + d2(y_{t-1}) * W_hh
+              y_t = f(ln(net) + b)
+        """
+        prev_output = states[0]
+        dp_mask = self.get_dropout_mask_for_cell(inputs, training)
+        rec_dp_mask = self.get_recurrent_dropout_mask_for_cell(
+            prev_output, training)
+
+        if dp_mask is not None:
+            h = keras.backend.dot(inputs * dp_mask, self.kernel)
+        else:
+            h = keras.backend.dot(inputs, self.kernel)
+
+        # don't add bias to "h" here
+        # add bias after scaling with layer normalization to "output"
+
+        if rec_dp_mask is not None:
+            prev_output = prev_output * rec_dp_mask
+        output = h + keras.backend.dot(prev_output,
+                                       self.recurrent_kernel)  # "net"
+
+        if self.use_layernorm:
+            # output = LayerNormalization.call(self, output)
+            output = self.layernorm(output)
+
+        if self.bias is not None:
+            output = keras.backend.bias_add(output, self.bias)
+
+        if self.activation is not None:
+            output = self.activation(output)
+
+        return output, [output]
+
+    # use SimpleRNNCell's get_initial_state method
+
+    def get_config(self):
+        config = {'use_layernorm': self.use_layernorm}
+        cell_config = keras.layers.SimpleRNNCell.get_config(self)
+        del cell_config['name']
+        if self.use_layernorm:
+            # ln_config = LayerNormalization.get_config(self)
+            ln_config = self.layernorm.get_config()
+            ln_config = {
+                key: ln_config[key]
+                for key in [
+                    "epsilon", "gamma_initializer", "gamma_regularizer",
+                    "gamma_constraint"
+                ] if key in ln_config
+            }
+            ln_config['layernorm_epsilon'] = ln_config.pop("epsilon")
+        else:
+            ln_config = {}
+        return {**config, **cell_config, **ln_config}
+
+
+@tf.keras.utils.register_keras_serializable(package='Addons')
+class LayernormSimpleRNN(keras.layers.SimpleRNN):
+    """Fully-connected RNN with Layer Normalization.
+
+    Motivation:
+    - Drop-In Replacement for keras.layers.SimpleRNN
+    - demonstrate how to add keras.layers.LayerNormalization
+       to all RNNs by introducing the `use_layernorm` argument
+
+    References:
+    [1] Ba, Jimmy Lei, Jamie Ryan Kiros, and Geoffrey E. Hinton.
+        “Layer Normalization.” ArXiv:1607.06450 [Cs, Stat],
+        July 21, 2016. http://arxiv.org/abs/1607.06450
+
+    Arguments:
+      units: Positive integer, dimensionality of the output space.
+      activation: Activation function to use.
+        Default: hyperbolic tangent (`tanh`).
+        If you pass None, no activation is applied
+        (ie. "linear" activation: `a(x) = x`).
+      use_bias: Boolean, (default `True`), whether the layer uses a bias vector.
+      use_layernorm: Boolean, (default `True`), whether to apply layer normalization
+        (scaling only).
+      layernorm_epsilon: Float, (default `1e-5`), Small float added to variance
+        to avoid dividing by zero.
+      kernel_initializer: Initializer for the `kernel` weights matrix,
+        used for the linear transformation of the inputs. Default:
+        `glorot_uniform`.
+      recurrent_initializer: Initializer for the `recurrent_kernel`
+        weights matrix, used for the linear transformation of the recurrent
+        state. Default: `orthogonal`.
+      bias_initializer: Initializer for the bias vector (`use_bias=True`) or
+         for the beta vector in layer normalization (`use_layernorm=True`).
+         Default: `zeros`.
+      gamma_initializer: Initializer for the gamma vector of the layer
+         normalization layer (`use_layernorm=True`). Default: `ones`.
+      kernel_regularizer: Regularizer function applied to the `kernel` weights
+        matrix. Default: `None`.
+      recurrent_regularizer: Regularizer function applied to the
+        `recurrent_kernel` weights matrix. Default: `None`.
+      bias_regularizer: Regularizer function applied to the bias vector
+         (`use_bias=True`) or for the beta vector of the layer normalization
+         layer (`use_layernorm=True`). Default: `None`.
+      gamma_regularizer: Regularizer function applied to the gamma vector
+         of the layer normalization layer (`use_layernorm=True`).
+         Default: `None`.
+      activity_regularizer: Regularizer function applied to the output of the
+        layer (its "activation"). Default: `None`.
+      kernel_constraint: Constraint function applied to the `kernel` weights
+        matrix. Default: `None`.
+      recurrent_constraint: Constraint function applied to the `recurrent_kernel`
+        weights matrix.  Default: `None`.
+      bias_constraint: Constraint function applied to the bias vector
+         (`use_bias=True`) or for the beta vector of the layer normalization
+         layer (`use_layernorm=True`). Default: `None`.
+      gamma_constraint: Constraint function applied to the gamma vector
+         of the layer normalization layer (`use_layernorm=True`).
+         Default: `None`.
+      dropout: Float between 0 and 1.
+        Fraction of the units to drop for the linear transformation of the
+        inputs. Default: 0.
+      recurrent_dropout: Float between 0 and 1.
+        Fraction of the units to drop for the linear transformation of the
+        recurrent state. Default: 0.
+      return_sequences: Boolean. Whether to return the last output
+        in the output sequence, or the full sequence. Default: `False`.
+      return_state: Boolean. Whether to return the last state
+        in addition to the output. Default: `False`
+      go_backwards: Boolean (default False).
+        If True, process the input sequence backwards and return the
+        reversed sequence.
+      stateful: Boolean (default False). If True, the last state
+        for each sample at index i in a batch will be used as initial
+        state for the sample of index i in the following batch.
+      unroll: Boolean (default False).
+        If True, the network will be unrolled,
+        else a symbolic loop will be used.
+        Unrolling can speed-up a RNN,
+        although it tends to be more memory-intensive.
+        Unrolling is only suitable for short sequences.
+
+    Call arguments:
+      inputs: A 3D tensor, with shape `[batch, timesteps, feature]`.
+      mask: Binary tensor of shape `[batch, timesteps]` indicating whether
+        a given timestep should be masked.
+      training: Python boolean indicating whether the layer should behave in
+        training mode or in inference mode. This argument is passed to the cell
+        when calling it. This is only relevant if `dropout` or
+        `recurrent_dropout` is used.
+      initial_state: List of initial state tensors to be passed to the first
+        call of the cell.
+
+    Examples:
+
+    ```python
+    import numpy as np
+    import tensorflow_addons as tfa
+
+    inputs = np.random.random([32, 10, 8]).astype(np.float32)
+    model = tfa.rnn.LayernormSimpleRNN(4)
+
+    output = model(inputs)  # The output has shape `[32, 4]`.
+
+    model = tfa.rnn.LayernormSimpleRNN(
+        4, return_sequences=True, return_state=True)
+
+    # whole_sequence_output has shape `[32, 10, 4]`.
+    # final_state has shape `[32, 4]`.
+    whole_sequence_output, final_state = model(inputs)
+    ```
+    """
+
+    def __init__(
+            self,
+            units,
+            activation='tanh',
+            use_bias=True,
+            use_layernorm=True,  # NEW(!)
+            layernorm_epsilon=1e-05,  # NEW(!)
+            kernel_initializer='glorot_uniform',
+            recurrent_initializer='orthogonal',
+            bias_initializer='zeros',
+            gamma_initializer='ones',  # NEW(!)
+            kernel_regularizer=None,
+            recurrent_regularizer=None,
+            bias_regularizer=None,
+            gamma_regularizer=None,  # NEW(!)
+            activity_regularizer=None,
+            kernel_constraint=None,
+            recurrent_constraint=None,
+            bias_constraint=None,
+            gamma_constraint=None,  # NEW(!)
+            dropout=0.,
+            recurrent_dropout=0.,
+            return_sequences=False,
+            return_state=False,
+            go_backwards=False,
+            stateful=False,
+            unroll=False,
+            **kwargs):
+        # 'implementation' warning was never relevant for LayernormSimpleRNN
+        cell = LayernormSimpleRNNCell(
+            units,
+            activation=activation,
+            use_bias=use_bias,
+            use_layernorm=use_layernorm,  # NEW(!)
+            layernorm_epsilon=layernorm_epsilon,  # NEW(!)
+            kernel_initializer=kernel_initializer,
+            recurrent_initializer=recurrent_initializer,
+            bias_initializer=bias_initializer,
+            gamma_initializer=gamma_initializer,  # NEW(!)
+            kernel_regularizer=kernel_regularizer,
+            recurrent_regularizer=recurrent_regularizer,
+            bias_regularizer=bias_regularizer,
+            gamma_regularizer=gamma_regularizer,  # NEW(!)
+            activity_regularizer=activity_regularizer,
+            kernel_constraint=kernel_constraint,
+            recurrent_constraint=recurrent_constraint,
+            bias_constraint=bias_constraint,
+            gamma_constraint=gamma_constraint,  # NEW(!)
+            dropout=dropout,
+            recurrent_dropout=recurrent_dropout,
+            dtype=kwargs.get('dtype'),
+            trainable=kwargs.get('trainable', True))
+        super(keras.layers.SimpleRNN, self).__init__(  # call RNN's init
+            cell,
+            return_sequences=return_sequences,
+            return_state=return_state,
+            go_backwards=go_backwards,
+            stateful=stateful,
+            unroll=unroll,
+            **kwargs)
+        # IT'S NOT USED ANYWHERE(!):
+        # self.activity_regularizer = regularizers.get(activity_regularizer)
+        # self.input_spec = [InputSpec(ndim=3)]
+
+    # use SimpleRNN's call() method
+
+    @property
+    def use_layernorm(self):
+        return self.cell.use_layernorm
+
+    @property
+    def layernorm_epsilon(self):
+        return self.cell.layernorm_epsilon
+
+    @property
+    def gamma_initializer(self):
+        return self.cell.gamma_initializer
+
+    @property
+    def gamma_regularizer(self):
+        return self.cell.gamma_regularizer
+
+    @property
+    def gamma_constraint(self):
+        return self.cell.gamma_constraint
+
+    def get_config(self):
+        base_config = super(keras.layers.SimpleRNN,
+                            self).get_config()  # get RNN's config
+        del base_config['cell']
+        cell_config = self.cell.get_config()
+        return {**base_config, **cell_config}
diff --git a/tensorflow_addons/rnn/cell_test.py b/tensorflow_addons/rnn/cell_test.py
index 82d09260e8..9a97ee4b12 100644
--- a/tensorflow_addons/rnn/cell_test.py
+++ b/tensorflow_addons/rnn/cell_test.py
@@ -24,6 +24,7 @@
 
 from tensorflow_addons.utils import test_utils
 from tensorflow_addons.rnn import cell as rnn_cell
+from tensorflow_addons.rnn import LayernormSimpleRNN
 
 
 @test_utils.run_all_in_graph_and_eager_modes
@@ -293,5 +294,141 @@ def test_config(self):
         self.assertEqual(config, restored_config)
 
 
+@test_utils.run_all_in_graph_and_eager_modes
+class LayernormSimpleRNNTest(tf.test.TestCase):
+    def test_return_sequences_layernorm_rnn(self):
+        num_samples = 2
+        timesteps = 3
+        embedding_dim = 4
+        units = 2
+        test_utils.layer_test(
+            LayernormSimpleRNN,
+            kwargs={
+                'units': units,
+                'use_layernorm': True,
+                'return_sequences': True
+            },
+            input_shape=(num_samples, timesteps, embedding_dim))
+
+    def test_float64_layernorm_rnn(self):
+        num_samples = 2
+        timesteps = 3
+        embedding_dim = 4
+        units = 2
+        test_utils.layer_test(
+            LayernormSimpleRNN,
+            kwargs={
+                'units': units,
+                'use_layernorm': True,
+                'return_sequences': True,
+                'dtype': 'float64'
+            },
+            input_shape=(num_samples, timesteps, embedding_dim),
+            input_dtype='float64')
+
+    def test_dynamic_behavior_layernorm_rnn(self):
+        num_samples = 2
+        timesteps = 3
+        embedding_dim = 4
+        units = 2
+        layer = LayernormSimpleRNN(
+            units, use_layernorm=True, input_shape=(None, embedding_dim))
+        model = keras.models.Sequential()
+        model.add(layer)
+        model.compile('rmsprop', 'mse')
+        x = np.random.random((num_samples, timesteps, embedding_dim))
+        y = np.random.random((num_samples, units))
+        model.train_on_batch(x, y)
+
+    # DELETED TEST: test_implementation_mode_layernorm_rnn
+
+    def test_dropout_layernorm_rnn(self):
+        num_samples = 2
+        timesteps = 3
+        embedding_dim = 4
+        units = 2
+        test_utils.layer_test(
+            LayernormSimpleRNN,
+            kwargs={
+                'units': units,
+                'use_layernorm': True,
+                'dropout': 0.1,
+                'recurrent_dropout': 0.1
+            },
+            input_shape=(num_samples, timesteps, embedding_dim))
+
+    def test_constraints_layernorm_rnn(self):
+        embedding_dim = 4
+        layer_class = LayernormSimpleRNN
+        k_constraint = keras.constraints.max_norm(0.01)
+        r_constraint = keras.constraints.max_norm(0.01)
+        b_constraint = keras.constraints.max_norm(0.01)
+        g_constraint = keras.constraints.max_norm(0.01)
+        layer = layer_class(
+            5,
+            use_layernorm=True,
+            return_sequences=False,
+            weights=None,
+            input_shape=(None, embedding_dim),
+            kernel_constraint=k_constraint,
+            recurrent_constraint=r_constraint,
+            bias_constraint=b_constraint,
+            gamma_constraint=g_constraint)
+        layer.build((None, None, embedding_dim))
+        self.assertEqual(layer.cell.kernel.constraint, k_constraint)
+        self.assertEqual(layer.cell.recurrent_kernel.constraint, r_constraint)
+        self.assertEqual(layer.cell.bias.constraint, b_constraint)
+        self.assertEqual(layer.cell.layernorm.gamma.constraint, g_constraint)
+
+    def test_with_masking_layer_layernorm_rnn(self):
+        layer_class = LayernormSimpleRNN
+        inputs = np.random.random((2, 3, 4))
+        targets = np.abs(np.random.random((2, 3, 5)))
+        targets /= targets.sum(axis=-1, keepdims=True)
+        model = keras.models.Sequential()
+        model.add(keras.layers.Masking(input_shape=(3, 4)))
+        model.add(
+            layer_class(
+                units=5,
+                use_layernorm=True,
+                return_sequences=True,
+                unroll=False))
+        model.compile(loss='categorical_crossentropy', optimizer='rmsprop')
+        model.fit(inputs, targets, epochs=1, batch_size=2, verbose=1)
+
+    def test_from_config_layernorm_rnn(self):
+        layer_class = LayernormSimpleRNN
+        for stateful in (False, True):
+            l1 = layer_class(units=1, use_layernorm=True, stateful=stateful)
+            l2 = layer_class.from_config(l1.get_config())
+            assert l1.get_config() == l2.get_config()
+
+    def test_regularizers_layernorm_rnn(self):
+        embedding_dim = 4
+        layer_class = LayernormSimpleRNN
+        layer = layer_class(
+            5,
+            use_layernorm=True,
+            return_sequences=False,
+            weights=None,
+            input_shape=(None, embedding_dim),
+            kernel_regularizer=keras.regularizers.l1(0.01),
+            recurrent_regularizer=keras.regularizers.l1(0.01),
+            bias_regularizer='l2',
+            gamma_regularizer='l2')
+        # activity_regularizer='l1'  # DOESN'T DO ANYTHING
+        layer.build((None, None, 2))
+        self.assertEqual(len(layer.losses), 4)
+
+        #x = keras.backend.variable(np.ones((2, 3, 2)))
+        #layer(x)
+        #if context.executing_eagerly():
+        #    self.assertEqual(len(layer.losses), 4)
+        #else:
+        #    self.assertEqual(len(layer.get_losses_for(x)), 1)
+
+    # STILL MISSING: test_statefulness_layernorm_rnn()
+
+
 if __name__ == "__main__":
     tf.test.main()
diff --git a/tensorflow_addons/rnn/layernorm_simplernn.py b/tensorflow_addons/rnn/layernorm_simplernn.py
deleted file mode 100644
index 6d0eb50cb2..0000000000
--- a/tensorflow_addons/rnn/layernorm_simplernn.py
+++ /dev/null
@@ -1,485 +0,0 @@
-# Copyright 2015 The TensorFlow Authors. All Rights Reserved.
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-#     http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-# ==============================================================================
-"""Module for LayernormSimpleRNN and LayernormSimpleRNNCell."""
-from __future__ import absolute_import
-from __future__ import division
-from __future__ import print_function
-
-import tensorflow as tf
-import tensorflow.keras as keras
-
-
-@tf.keras.utils.register_keras_serializable(package='Addons')
-# class LayernormSimpleRNNCell(SimpleRNNCell, LayerNormalization):
-class LayernormSimpleRNNCell(keras.layers.SimpleRNNCell):
-    """Cell class for LayernormSimpleRNN
-
-    Motivation:
-    - Drop-In Replacement for keras.layers.SimpleRNNCell
-    - demonstrate how to add keras.layers.LayerNormalization 
-       to all RNNs by introducing the `use_layernorm` argument
-
-    References:
-    [1] Ba, Jimmy Lei, Jamie Ryan Kiros, and Geoffrey E. Hinton. 
-        “Layer Normalization.” ArXiv:1607.06450 [Cs, Stat], 
-        July 21, 2016. http://arxiv.org/abs/1607.06450
-
-    Arguments:
-      units: Positive integer, dimensionality of the output space.
-      activation: Activation function to use.
-        Default: hyperbolic tangent (`tanh`).
-        If you pass `None`, no activation is applied
-        (ie. "linear" activation: `a(x) = x`).
-      use_bias: Boolean, (default `True`), whether the layer uses a bias vector.
-      use_layernorm: Boolean, (default `True`), whether to apply layer normalization
-        (scaling only).
-      layernorm_epsilon: Float, (default `1e-5`), Small float added to variance
-        to avoid dividing by zero.
-      kernel_initializer: Initializer for the `kernel` weights matrix,
-        used for the linear transformation of the inputs. Default:
-        `glorot_uniform`.
-      recurrent_initializer: Initializer for the `recurrent_kernel`
-        weights matrix, used for the linear transformation of the recurrent
-        state. Default: `orthogonal`.
-      bias_initializer: Initializer for the bias vector (`use_bias=True`) or
-         for the beta vector in layer normalization (`use_layernorm=True`).
-         Default: `zeros`.
-      gamma_initializer: Initializer for the gamma vector of the layer
-         normalization layer (`use_layernorm=True`). Default: `ones`.
-      kernel_regularizer: Regularizer function applied to the `kernel` weights
-        matrix. Default: `None`.
-      recurrent_regularizer: Regularizer function applied to the
-        `recurrent_kernel` weights matrix. Default: `None`.
-      bias_regularizer: Regularizer function applied to the bias vector
-         (`use_bias=True`) or for the beta vector of the layer normalization
-         layer (`use_layernorm=True`). Default: `None`.
-      gamma_regularizer: Regularizer function applied to the gamma vector
-         of the layer normalization layer (`use_layernorm=True`).
-         Default: `None`.
-      kernel_constraint: Constraint function applied to the `kernel` weights
-        matrix. Default: `None`.
-      recurrent_constraint: Constraint function applied to the `recurrent_kernel`
-        weights matrix. Default: `None`.
-      bias_constraint: Constraint function applied to the bias vector
-         (`use_bias=True`) or for the beta vector of the layer normalization
-         layer (`use_layernorm=True`). Default: `None`.
-      gamma_constraint: Constraint function applied to the gamma vector
-         of the layer normalization layer (`use_layernorm=True`).
-         Default: `None`.
-      dropout: Float between 0 and 1. Fraction of the units to drop for the
-        linear transformation of the inputs. Default: 0.
-      recurrent_dropout: Float between 0 and 1. Fraction of the units to drop for
-        the linear transformation of the recurrent state. Default: 0.
-
-    Call arguments:
-      inputs: A 2D tensor, with shape of `[batch, feature]`.
-      states: A 2D tensor with shape of `[batch, units]`, which is the state
-        from the previous time step. For timestep 0, the initial state provided
-        by the user will be feed to cell.
-      training: Python boolean indicating whether the layer should behave in
-        training mode or in inference mode. Only relevant when `dropout` or
-        `recurrent_dropout` is used.
-
-    Examples:
-
-    ```python
-    import numpy as np
-    import tensorflow.keras as keras
-    import tensorflow_addons as tfa
-
-    inputs = np.random.random([32, 10, 8]).astype(np.float32)
-    rnn = keras.layers.RNN(tfa.rnn.LayernormSimpleRNNCell(4))
-
-    output = rnn(inputs)  # The output has shape `[32, 4]`.
-
-    rnn = keras.layers.RNN(
-        tfa.rnn.LayernormSimpleRNNCell(4),
-        return_sequences=True,
-        return_state=True)
-
-    # whole_sequence_output has shape `[32, 10, 4]`.
-    # final_state has shape `[32, 4]`.
-    whole_sequence_output, final_state = rnn(inputs)
-    ```
-    """
-
-    def __init__(
-            self,
-            units,
-            activation='tanh',
-            use_bias=True,
-            use_layernorm=True,  # NEW(!)
-            layernorm_epsilon=1e-05,  # NEW(!)
-            kernel_initializer='glorot_uniform',
-            recurrent_initializer='orthogonal',
-            bias_initializer='zeros',
-            gamma_initializer='ones',  # NEW(!)
-            kernel_regularizer=None,
-            recurrent_regularizer=None,
-            bias_regularizer=None,
-            gamma_regularizer=None,  # NEW(!)
-            kernel_constraint=None,
-            recurrent_constraint=None,
-            bias_constraint=None,
-            gamma_constraint=None,  # NEW(!)
-            dropout=0.,
-            recurrent_dropout=0.,
-            **kwargs):
-        self.use_layernorm = use_layernorm
-        keras.layers.SimpleRNNCell.__init__(
-            self,
-            units,
-            activation=activation,
-            use_bias=use_bias,
-            kernel_initializer=kernel_initializer,
-            recurrent_initializer=recurrent_initializer,
-            bias_initializer=bias_initializer,
-            kernel_regularizer=kernel_regularizer,
-            recurrent_regularizer=recurrent_regularizer,
-            bias_regularizer=bias_regularizer,
-            kernel_constraint=kernel_constraint,
-            recurrent_constraint=recurrent_constraint,
-            bias_constraint=bias_constraint,
-            dropout=dropout,
-            recurrent_dropout=recurrent_dropout,
-            dtype=kwargs.get('dtype'),
-            trainable=kwargs.get('trainable', True))
-        if use_layernorm:
-            # LayerNormalization.__init__(self,
-            self.layernorm = keras.layers.LayerNormalization(
-                axis=-1,
-                epsilon=layernorm_epsilon,
-                center=False,
-                scale=True,
-                beta_initializer=None,
-                gamma_initializer=gamma_initializer,
-                beta_regularizer=None,
-                gamma_regularizer=gamma_regularizer,
-                beta_constraint=None,
-                gamma_constraint=gamma_constraint,
-                dtype=kwargs.get('dtype'),
-                trainable=kwargs.get('trainable', True))
-
-    # @tf_utils.shape_type_conversion
-    def build(self, input_shape):
-        # SimpleRNNCell.build(self, input_shape)
-        super(LayernormSimpleRNNCell, self).build(input_shape)
-        if self.use_layernorm:
-            # LayerNormalization.build(self, (None, self.units))
-            self.layernorm.build((None, self.units))
-
-    def call(self, inputs, states, training=None):
-        """Formulas.
-
-        Notation:
-            y_t : Cell output at t (`output`)
-            y_{t-1} : Previous cell output at t-1 (`prev_output`)
-            x_t : The new input at t (`inputs`)
-            W_xh : Weight matrix for inputs x_t (`self.kernel`)
-            W_hh : Weights for prev. outputs y_{t-1} (`self.recurrent_kernel`)
-            b : Bias term for centering (`self.bias`)
-            d1 : Dropout function for x_t (`inputs * dp_mask`)
-            d2 : Dropout function for y_{t-1} (`prev_output * rec_dp_mask`)
-            ln : Scaling function from layer normalization (`self.layernorm`)
-            f : Activation function (`self.activation`)
-
-        Case 1:
-            Simple RNN, only with bias and activation
-              y_t = f(x_t * W_xh + y_{t-1} * W_hh + b)
-            or
-              net = x_t * W_xh + y_{t-1} * W_hh
-              y_t = f(net + b)
-
-        Case 2:
-            RNN with, layer normalization (only scaling), bias and activation.
-              y_t = f(ln(x_t * W_xh + y_{t-1} * W_hh) + b)
-            or
-              net = x_t * W_xh + y_{t-1} * W_hh
-              y_t = f(ln(net) + b)
-
-            Layer normalization with scaling and centering in one go (see Ba et
-            al (2016), page 3, formula 4, https://arxiv.org/abs/1607.06450)
-            is the same as layer normalization only with scaling, and
-            centering directly afterwards.
-
-        Case 3:
-            RNN, with dropout, bias, and activation (no scaling from LN)
-              y_t = f(d1(x_t) * W_xh + d2(y_{t-1}) * W_hh + b)
-            or
-              net = d1(x_t) * W_xh + d2(y_{t-1}) * W_hh
-              y_t = f(net + b)
-
-        Case 4:
-            Everyting is used, i.e. all dropouts, layer normalization
-            (only scaling), bias, and activation
-              y_t = f(ln(d1(x_t) * W_xh + d2(y_{t-1}) * W_hh) + b)
-            or
-              net = d1(x_t) * W_xh + d2(y_{t-1}) * W_hh
-              y_t = f(ln(net) + b)
-        """
-        prev_output = states[0]
-        dp_mask = self.get_dropout_mask_for_cell(inputs, training)
-        rec_dp_mask = self.get_recurrent_dropout_mask_for_cell(
-            prev_output, training)
-
-        if dp_mask is not None:
-            h = keras.backend.dot(inputs * dp_mask, self.kernel)
-        else:
-            h = keras.backend.dot(inputs, self.kernel)
-
-        # don't add bias to "h" here
-        # add bias after scaling with layer normalization to "output"
-
-        if rec_dp_mask is not None:
-            prev_output = prev_output * rec_dp_mask
-        output = h + keras.backend.dot(prev_output, self.recurrent_kernel)  # "net"
-
-        if self.use_layernorm:
-            # output = LayerNormalization.call(self, output)
-            output = self.layernorm(output)
-
-        if self.bias is not None:
-            output = keras.backend.bias_add(output, self.bias)
-
-        if self.activation is not None:
-            output = self.activation(output)
-
-        return output, [output]
-
-    # use SimpleRNNCell's get_initial_state method
-
-    def get_config(self):
-        config = {'use_layernorm': self.use_layernorm}
-        cell_config = keras.layers.SimpleRNNCell.get_config(self)
-        del cell_config['name']
-        if self.use_layernorm:
-            # ln_config = LayerNormalization.get_config(self)
-            ln_config = self.layernorm.get_config()
-            ln_config = {
-                key: ln_config[key]
-                for key in [
-                    "epsilon", "gamma_initializer", "gamma_regularizer",
-                    "gamma_constraint"
-                ] if key in ln_config
-            }
-            ln_config['layernorm_epsilon'] = ln_config.pop("epsilon")
-        else:
-            ln_config = {}
-        return {**config, **cell_config, **ln_config}
-
-
-@tf.keras.utils.register_keras_serializable(package='Addons')
-class LayernormSimpleRNN(keras.layers.SimpleRNN):
-    """Fully-connected RNN with Layer Normalization.
-
-    Motivation:
-    - Drop-In Replacement for keras.layers.SimpleRNN
-    - demonstrate how to add keras.layers.LayerNormalization 
-       to all RNNs by introducing the `use_layernorm` argument
-
-    References:
-    [1] Ba, Jimmy Lei, Jamie Ryan Kiros, and Geoffrey E. Hinton. 
-        “Layer Normalization.” ArXiv:1607.06450 [Cs, Stat], 
-        July 21, 2016. http://arxiv.org/abs/1607.06450
-
-    Arguments:
-      units: Positive integer, dimensionality of the output space.
-      activation: Activation function to use.
-        Default: hyperbolic tangent (`tanh`).
-        If you pass None, no activation is applied
-        (ie. "linear" activation: `a(x) = x`).
-      use_bias: Boolean, (default `True`), whether the layer uses a bias vector.
-      use_layernorm: Boolean, (default `True`), whether to apply layer normalization
-        (scaling only).
-      layernorm_epsilon: Float, (default `1e-5`), Small float added to variance
-        to avoid dividing by zero.
-      kernel_initializer: Initializer for the `kernel` weights matrix,
-        used for the linear transformation of the inputs. Default:
-        `glorot_uniform`.
-      recurrent_initializer: Initializer for the `recurrent_kernel`
-        weights matrix, used for the linear transformation of the recurrent
-        state. Default: `orthogonal`.
-      bias_initializer: Initializer for the bias vector (`use_bias=True`) or
-         for the beta vector in layer normalization (`use_layernorm=True`).
-         Default: `zeros`.
-      gamma_initializer: Initializer for the gamma vector of the layer
-         normalization layer (`use_layernorm=True`). Default: `ones`.
-      kernel_regularizer: Regularizer function applied to the `kernel` weights
-        matrix. Default: `None`.
-      recurrent_regularizer: Regularizer function applied to the
-        `recurrent_kernel` weights matrix. Default: `None`.
-      bias_regularizer: Regularizer function applied to the bias vector
-         (`use_bias=True`) or for the beta vector of the layer normalization
-         layer (`use_layernorm=True`). Default: `None`.
-      gamma_regularizer: Regularizer function applied to the gamma vector
-         of the layer normalization layer (`use_layernorm=True`).
-         Default: `None`.
-      activity_regularizer: Regularizer function applied to the output of the
-        layer (its "activation"). Default: `None`.
-      kernel_constraint: Constraint function applied to the `kernel` weights
-        matrix. Default: `None`.
-      recurrent_constraint: Constraint function applied to the `recurrent_kernel`
-        weights matrix.  Default: `None`.
-      bias_constraint: Constraint function applied to the bias vector
-         (`use_bias=True`) or for the beta vector of the layer normalization
-         layer (`use_layernorm=True`). Default: `None`.
-      gamma_constraint: Constraint function applied to the gamma vector
-         of the layer normalization layer (`use_layernorm=True`).
-         Default: `None`.
-      dropout: Float between 0 and 1.
-        Fraction of the units to drop for the linear transformation of the
-        inputs. Default: 0.
-      recurrent_dropout: Float between 0 and 1.
-        Fraction of the units to drop for the linear transformation of the
-        recurrent state. Default: 0.
-      return_sequences: Boolean. Whether to return the last output
-        in the output sequence, or the full sequence. Default: `False`.
-      return_state: Boolean. Whether to return the last state
-        in addition to the output. Default: `False`
-      go_backwards: Boolean (default False).
-        If True, process the input sequence backwards and return the
-        reversed sequence.
-      stateful: Boolean (default False). If True, the last state
-        for each sample at index i in a batch will be used as initial
-        state for the sample of index i in the following batch.
-      unroll: Boolean (default False).
-        If True, the network will be unrolled,
-        else a symbolic loop will be used.
-        Unrolling can speed-up a RNN,
-        although it tends to be more memory-intensive.
-        Unrolling is only suitable for short sequences.
-
-    Call arguments:
-      inputs: A 3D tensor, with shape `[batch, timesteps, feature]`.
-      mask: Binary tensor of shape `[batch, timesteps]` indicating whether
-        a given timestep should be masked.
-      training: Python boolean indicating whether the layer should behave in
-        training mode or in inference mode. This argument is passed to the cell
-        when calling it. This is only relevant if `dropout` or
-        `recurrent_dropout` is used.
-      initial_state: List of initial state tensors to be passed to the first
-        call of the cell.
-
-    Examples:
-
-    ```python
-    import numpy as np
-    import tensorflow_addons as tfa
-
-    inputs = np.random.random([32, 10, 8]).astype(np.float32)
-    model = tfa.rnn.LayernormSimpleRNN(4)
-
-    output = model(inputs)  # The output has shape `[32, 4]`.
-
-    model = tfa.rnn.LayernormSimpleRNN(
-        4, return_sequences=True, return_state=True)
-
-    # whole_sequence_output has shape `[32, 10, 4]`.
-    # final_state has shape `[32, 4]`.
-    whole_sequence_output, final_state = model(inputs)
-    ```
-    """
-
-    def __init__(
-            self,
-            units,
-            activation='tanh',
-            use_bias=True,
-            use_layernorm=True,  # NEW(!)
-            layernorm_epsilon=1e-05,  # NEW(!)
-            kernel_initializer='glorot_uniform',
-            recurrent_initializer='orthogonal',
-            bias_initializer='zeros',
-            gamma_initializer='ones',  # NEW(!)
-            kernel_regularizer=None,
-            recurrent_regularizer=None,
-            bias_regularizer=None,
-            gamma_regularizer=None,  # NEW(!)
-            activity_regularizer=None,
-            kernel_constraint=None,
-            recurrent_constraint=None,
-            bias_constraint=None,
-            gamma_constraint=None,  # NEW(!)
-            dropout=0.,
-            recurrent_dropout=0.,
-            return_sequences=False,
-            return_state=False,
-            go_backwards=False,
-            stateful=False,
-            unroll=False,
-            **kwargs):
-        # 'implementation' warning was never relevant for LayernormSimpleRNN
-        cell = LayernormSimpleRNNCell(
-            units,
-            activation=activation,
-            use_bias=use_bias,
-            use_layernorm=use_layernorm,  # NEW(!)
-            layernorm_epsilon=layernorm_epsilon,  # NEW(!)
-            kernel_initializer=kernel_initializer,
-            recurrent_initializer=recurrent_initializer,
-            bias_initializer=bias_initializer,
-            gamma_initializer=gamma_initializer,  # NEW(!)
-            kernel_regularizer=kernel_regularizer,
-            recurrent_regularizer=recurrent_regularizer,
-            bias_regularizer=bias_regularizer,
-            gamma_regularizer=gamma_regularizer,  # NEW(!)
-            activity_regularizer=activity_regularizer,
-            kernel_constraint=kernel_constraint,
-            recurrent_constraint=recurrent_constraint,
-            bias_constraint=bias_constraint,
-            gamma_constraint=gamma_constraint,  # NEW(!)
-            dropout=dropout,
-            recurrent_dropout=recurrent_dropout,
-            dtype=kwargs.get('dtype'),
-            trainable=kwargs.get('trainable', True))
-        super(keras.layers.SimpleRNN, self).__init__(  # call RNN's init
-            cell,
-            return_sequences=return_sequences,
-            return_state=return_state,
-            go_backwards=go_backwards,
-            stateful=stateful,
-            unroll=unroll,
-            **kwargs)
-        # IT'S NOT USED ANYWHERE(!):
-        # self.activity_regularizer = regularizers.get(activity_regularizer)
-        # self.input_spec = [InputSpec(ndim=3)]
-
-    # use SimpleRNN's call() method
-
-    @property
-    def use_layernorm(self):
-        return self.cell.use_layernorm
-
-    @property
-    def layernorm_epsilon(self):
-        return self.cell.layernorm_epsilon
-
-    @property
-    def gamma_initializer(self):
-        return self.cell.gamma_initializer
-
-    @property
-    def gamma_regularizer(self):
-        return self.cell.gamma_regularizer
-
-    @property
-    def gamma_constraint(self):
-        return self.cell.gamma_constraint
-
-    def get_config(self):
-        base_config = super(keras.layers.SimpleRNN, self).get_config()  # get RNN's config
-        del base_config['cell']
-        cell_config = self.cell.get_config()
-        return {**base_config, **cell_config}
diff --git a/tensorflow_addons/rnn/layernorm_simplernn_test.py b/tensorflow_addons/rnn/layernorm_simplernn_test.py
deleted file mode 100644
index e8467b6521..0000000000
--- a/tensorflow_addons/rnn/layernorm_simplernn_test.py
+++ /dev/null
@@ -1,168 +0,0 @@
-# Copyright 2016 The TensorFlow Authors. All Rights Reserved.
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-#     http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-# ==============================================================================
-"""Tests for LayernormSimpleRNN layer."""
-
-from __future__ import absolute_import
-from __future__ import division
-from __future__ import print_function
-
-import numpy as np
-import tensorflow as tf
-import tensorflow.keras as keras
-
-from tensorflow_addons.utils import test_utils
-# from tensorflow_addons.rnn import LayernormSimpleRNN
-from tensorflow_addons.rnn.layernorm_simplernn import LayernormSimpleRNN
-# from layernorm_simplernn import LayernormSimpleRNN
-
-
-@test_utils.run_all_in_graph_and_eager_modes
-class LayernormSimpleRNNTest(tf.test.TestCase):
-    def test_return_sequences_layernorm_rnn(self):
-        num_samples = 2
-        timesteps = 3
-        embedding_dim = 4
-        units = 2
-        test_utils.layer_test(
-            LayernormSimpleRNN,
-            kwargs={
-                'units': units,
-                'use_layernorm': True,
-                'return_sequences': True
-            },
-            input_shape=(num_samples, timesteps, embedding_dim))
-
-    def test_float64_layernorm_rnn(self):
-        num_samples = 2
-        timesteps = 3
-        embedding_dim = 4
-        units = 2
-        test_utils.layer_test(
-            LayernormSimpleRNN,
-            kwargs={
-                'units': units,
-                'use_layernorm': True,
-                'return_sequences': True,
-                'dtype': 'float64'
-            },
-            input_shape=(num_samples, timesteps, embedding_dim),
-            input_dtype='float64')
-
-    def test_dynamic_behavior_layernorm_rnn(self):
-        num_samples = 2
-        timesteps = 3
-        embedding_dim = 4
-        units = 2
-        layer = LayernormSimpleRNN(
-            units, use_layernorm=True, input_shape=(None, embedding_dim))
-        model = keras.models.Sequential()
-        model.add(layer)
-        model.compile('rmsprop', 'mse')
-        x = np.random.random((num_samples, timesteps, embedding_dim))
-        y = np.random.random((num_samples, units))
-        model.train_on_batch(x, y)
-
-    # DELETED TEST: test_implementation_mode_layernorm_rnn
-
-    def test_dropout_layernorm_rnn(self):
-        num_samples = 2
-        timesteps = 3
-        embedding_dim = 4
-        units = 2
-        test_utils.layer_test(
-            LayernormSimpleRNN,
-            kwargs={
-                'units': units,
-                'use_layernorm': True,
-                'dropout': 0.1,
-                'recurrent_dropout': 0.1
-            },
-            input_shape=(num_samples, timesteps, embedding_dim))
-
-    def test_constraints_layernorm_rnn(self):
-        embedding_dim = 4
-        layer_class = LayernormSimpleRNN
-        k_constraint = keras.constraints.max_norm(0.01)
-        r_constraint = keras.constraints.max_norm(0.01)
-        b_constraint = keras.constraints.max_norm(0.01)
-        g_constraint = keras.constraints.max_norm(0.01)
-        layer = layer_class(
-            5,
-            use_layernorm=True,
-            return_sequences=False,
-            weights=None,
-            input_shape=(None, embedding_dim),
-            kernel_constraint=k_constraint,
-            recurrent_constraint=r_constraint,
-            bias_constraint=b_constraint,
-            gamma_constraint=g_constraint)
-        layer.build((None, None, embedding_dim))
-        self.assertEqual(layer.cell.kernel.constraint, k_constraint)
-        self.assertEqual(layer.cell.recurrent_kernel.constraint, r_constraint)
-        self.assertEqual(layer.cell.bias.constraint, b_constraint)
-        self.assertEqual(layer.cell.layernorm.gamma.constraint, g_constraint)
-
-    def test_with_masking_layer_layernorm_rnn(self):
-        layer_class = LayernormSimpleRNN
-        inputs = np.random.random((2, 3, 4))
-        targets = np.abs(np.random.random((2, 3, 5)))
-        targets /= targets.sum(axis=-1, keepdims=True)
-        model = keras.models.Sequential()
-        model.add(keras.layers.Masking(input_shape=(3, 4)))
-        model.add(
-            layer_class(
-                units=5,
-                use_layernorm=True,
-                return_sequences=True,
-                unroll=False))
-        model.compile(loss='categorical_crossentropy', optimizer='rmsprop')
-        model.fit(inputs, targets, epochs=1, batch_size=2, verbose=1)
-
-    def test_from_config_layernorm_rnn(self):
-        layer_class = LayernormSimpleRNN
-        for stateful in (False, True):
-            l1 = layer_class(units=1, use_layernorm=True, stateful=stateful)
-            l2 = layer_class.from_config(l1.get_config())
-            assert l1.get_config() == l2.get_config()
-
-    def test_regularizers_layernorm_rnn(self):
-        embedding_dim = 4
-        layer_class = LayernormSimpleRNN
-        layer = layer_class(
-            5,
-            use_layernorm=True,
-            return_sequences=False,
-            weights=None,
-            input_shape=(None, embedding_dim),
-            kernel_regularizer=keras.regularizers.l1(0.01),
-            recurrent_regularizer=keras.regularizers.l1(0.01),
-            bias_regularizer='l2',
-            gamma_regularizer='l2')
-        # activity_regularizer='l1'  # DOESN'T DO ANYTHING
-        layer.build((None, None, 2))
-        self.assertEqual(len(layer.losses), 4)
-
-        #x = keras.backend.variable(np.ones((2, 3, 2)))
-        #layer(x)
-        #if context.executing_eagerly():
-        #    self.assertEqual(len(layer.losses), 4)
-        #else:
-        #    self.assertEqual(len(layer.get_losses_for(x)), 1)
-
-    # STILL MISSING: test_statefulness_layernorm_rnn()
-
-
-if __name__ == '__main__':
-    tf.test.main()

From a1b86b53d4fa1209940e3f8e743d5532f6f4c83f Mon Sep 17 00:00:00 2001
From: UH <554c46@gmail.com>
Date: Thu, 9 Jan 2020 20:21:42 +0100
Subject: [PATCH 09/28] pylint errors corrected

---
 tensorflow_addons/rnn/cell.py | 26 ++++++++++++++------------
 1 file changed, 14 insertions(+), 12 deletions(-)

diff --git a/tensorflow_addons/rnn/cell.py b/tensorflow_addons/rnn/cell.py
index 6a676b9eeb..96335cefdd 100644
--- a/tensorflow_addons/rnn/cell.py
+++ b/tensorflow_addons/rnn/cell.py
@@ -389,9 +389,10 @@ class LayernormSimpleRNNCell(keras.layers.SimpleRNNCell):
         Default: hyperbolic tangent (`tanh`).
         If you pass `None`, no activation is applied
         (ie. "linear" activation: `a(x) = x`).
-      use_bias: Boolean, (default `True`), whether the layer uses a bias vector.
-      use_layernorm: Boolean, (default `True`), whether to apply layer normalization
-        (scaling only).
+      use_bias: Boolean, (default `True`), whether the layer uses a bias
+        vector.
+      use_layernorm: Boolean, (default `True`), whether to apply layer
+        normalization (scaling only).
       layernorm_epsilon: Float, (default `1e-5`), Small float added to variance
         to avoid dividing by zero.
       kernel_initializer: Initializer for the `kernel` weights matrix,
@@ -417,8 +418,8 @@ class LayernormSimpleRNNCell(keras.layers.SimpleRNNCell):
          Default: `None`.
       kernel_constraint: Constraint function applied to the `kernel` weights
         matrix. Default: `None`.
-      recurrent_constraint: Constraint function applied to the `recurrent_kernel`
-        weights matrix. Default: `None`.
+      recurrent_constraint: Constraint function applied to the
+        `recurrent_kernel` weights matrix. Default: `None`.
       bias_constraint: Constraint function applied to the bias vector
          (`use_bias=True`) or for the beta vector of the layer normalization
          layer (`use_layernorm=True`). Default: `None`.
@@ -427,8 +428,8 @@ class LayernormSimpleRNNCell(keras.layers.SimpleRNNCell):
          Default: `None`.
       dropout: Float between 0 and 1. Fraction of the units to drop for the
         linear transformation of the inputs. Default: 0.
-      recurrent_dropout: Float between 0 and 1. Fraction of the units to drop for
-        the linear transformation of the recurrent state. Default: 0.
+      recurrent_dropout: Float between 0 and 1. Fraction of the units to drop
+        for the linear transformation of the recurrent state. Default: 0.
 
     Call arguments:
       inputs: A 2D tensor, with shape of `[batch, feature]`.
@@ -648,9 +649,10 @@ class LayernormSimpleRNN(keras.layers.SimpleRNN):
         Default: hyperbolic tangent (`tanh`).
         If you pass None, no activation is applied
         (ie. "linear" activation: `a(x) = x`).
-      use_bias: Boolean, (default `True`), whether the layer uses a bias vector.
-      use_layernorm: Boolean, (default `True`), whether to apply layer normalization
-        (scaling only).
+      use_bias: Boolean, (default `True`), whether the layer uses a bias
+        vector.
+      use_layernorm: Boolean, (default `True`), whether to apply layer
+        normalization (scaling only).
       layernorm_epsilon: Float, (default `1e-5`), Small float added to variance
         to avoid dividing by zero.
       kernel_initializer: Initializer for the `kernel` weights matrix,
@@ -678,8 +680,8 @@ class LayernormSimpleRNN(keras.layers.SimpleRNN):
         layer (its "activation"). Default: `None`.
       kernel_constraint: Constraint function applied to the `kernel` weights
         matrix. Default: `None`.
-      recurrent_constraint: Constraint function applied to the `recurrent_kernel`
-        weights matrix.  Default: `None`.
+      recurrent_constraint: Constraint function applied to the
+        `recurrent_kernel` weights matrix.  Default: `None`.
       bias_constraint: Constraint function applied to the bias vector
          (`use_bias=True`) or for the beta vector of the layer normalization
          layer (`use_layernorm=True`). Default: `None`.

From 8179a2ebe8ae16911d246408ca8cc8c440cd3e62 Mon Sep 17 00:00:00 2001
From: UH <554c46@gmail.com>
Date: Fri, 10 Jan 2020 16:51:31 +0100
Subject: [PATCH 10/28] bazel's timeout increased from small to large for
 cell_test.py

---
 tensorflow_addons/rnn/BUILD | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/tensorflow_addons/rnn/BUILD b/tensorflow_addons/rnn/BUILD
index 237d75b977..ba1f999336 100644
--- a/tensorflow_addons/rnn/BUILD
+++ b/tensorflow_addons/rnn/BUILD
@@ -15,7 +15,7 @@ py_library(
 
 py_test(
     name = "cell_test",
-    size = "small",
+    size = "large",
     srcs = ["cell_test.py"],
     deps = [
         ":rnn",

From 140d95508d2d868ce2533ecc689f09d8adb253e8 Mon Sep 17 00:00:00 2001
From: UH <554c46@gmail.com>
Date: Sun, 12 Jan 2020 08:06:36 +0100
Subject: [PATCH 11/28] test with training deactivated

---
 tensorflow_addons/rnn/BUILD        | 2 +-
 tensorflow_addons/rnn/cell_test.py | 4 +++-
 2 files changed, 4 insertions(+), 2 deletions(-)

diff --git a/tensorflow_addons/rnn/BUILD b/tensorflow_addons/rnn/BUILD
index ba1f999336..237d75b977 100644
--- a/tensorflow_addons/rnn/BUILD
+++ b/tensorflow_addons/rnn/BUILD
@@ -15,7 +15,7 @@ py_library(
 
 py_test(
     name = "cell_test",
-    size = "large",
+    size = "small",
     srcs = ["cell_test.py"],
     deps = [
         ":rnn",
diff --git a/tensorflow_addons/rnn/cell_test.py b/tensorflow_addons/rnn/cell_test.py
index 9a97ee4b12..b8f9ff3013 100644
--- a/tensorflow_addons/rnn/cell_test.py
+++ b/tensorflow_addons/rnn/cell_test.py
@@ -326,6 +326,7 @@ def test_float64_layernorm_rnn(self):
             input_shape=(num_samples, timesteps, embedding_dim),
             input_dtype='float64')
 
+    """ REQUIRES TRAINING - WILL TIMEOUT
     def test_dynamic_behavior_layernorm_rnn(self):
         num_samples = 2
         timesteps = 3
@@ -339,6 +340,7 @@ def test_dynamic_behavior_layernorm_rnn(self):
         x = np.random.random((num_samples, timesteps, embedding_dim))
         y = np.random.random((num_samples, units))
         model.train_on_batch(x, y)
+    """
 
     # DELETED TEST: test_implementation_mode_layernorm_rnn
 
@@ -427,7 +429,7 @@ def test_regularizers_layernorm_rnn(self):
         #else:
         #    self.assertEqual(len(layer.get_losses_for(x)), 1)
 
-    # STILL MISSING: test_statefulness_layernorm_rnn()
+    # REQUIRES TRAINING - WILL TIMEOUT: test_statefulness_layernorm_rnn()
 
 
 if __name__ == "__main__":

From c2d9971861faafe5aa451c45e178938afb3d26ea Mon Sep 17 00:00:00 2001
From: UH <554c46@gmail.com>
Date: Sun, 12 Jan 2020 08:09:41 +0100
Subject: [PATCH 12/28] non-ascii char replaced

---
 tensorflow_addons/rnn/cell.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/tensorflow_addons/rnn/cell.py b/tensorflow_addons/rnn/cell.py
index 96335cefdd..ebb9009788 100644
--- a/tensorflow_addons/rnn/cell.py
+++ b/tensorflow_addons/rnn/cell.py
@@ -380,7 +380,7 @@ class LayernormSimpleRNNCell(keras.layers.SimpleRNNCell):
 
     References:
     [1] Ba, Jimmy Lei, Jamie Ryan Kiros, and Geoffrey E. Hinton.
-        “Layer Normalization.” ArXiv:1607.06450 [Cs, Stat],
+        "Layer Normalization." ArXiv:1607.06450 [Cs, Stat],
         July 21, 2016. http://arxiv.org/abs/1607.06450
 
     Arguments:
@@ -640,7 +640,7 @@ class LayernormSimpleRNN(keras.layers.SimpleRNN):
 
     References:
     [1] Ba, Jimmy Lei, Jamie Ryan Kiros, and Geoffrey E. Hinton.
-        “Layer Normalization.” ArXiv:1607.06450 [Cs, Stat],
+        "Layer Normalization." ArXiv:1607.06450 [Cs, Stat],
         July 21, 2016. http://arxiv.org/abs/1607.06450
 
     Arguments:

From 9369772c2f69a31f0f4c37121a20042acbe390b8 Mon Sep 17 00:00:00 2001
From: UH <554c46@gmail.com>
Date: Mon, 13 Jan 2020 08:49:29 +0100
Subject: [PATCH 13/28] dict syntax for python2 changed

---
 tensorflow_addons/rnn/cell.py | 6 ++++--
 1 file changed, 4 insertions(+), 2 deletions(-)

diff --git a/tensorflow_addons/rnn/cell.py b/tensorflow_addons/rnn/cell.py
index ebb9009788..81793ed070 100644
--- a/tensorflow_addons/rnn/cell.py
+++ b/tensorflow_addons/rnn/cell.py
@@ -626,7 +626,9 @@ def get_config(self):
             ln_config['layernorm_epsilon'] = ln_config.pop("epsilon")
         else:
             ln_config = {}
-        return {**config, **cell_config, **ln_config}
+        return dict(
+            list(config.items()) + list(cell_config.items()) +
+            list(ln_config.items()))
 
 
 @tf.keras.utils.register_keras_serializable(package='Addons')
@@ -833,4 +835,4 @@ def get_config(self):
                             self).get_config()  # get RNN's config
         del base_config['cell']
         cell_config = self.cell.get_config()
-        return {**base_config, **cell_config}
+        return dict(list(base_config.items()) + list(cell_config.items()))

From 348567c15bbc7381317c761f69ef2d7151e205ba Mon Sep 17 00:00:00 2001
From: UH <554c46@gmail.com>
Date: Mon, 13 Jan 2020 08:55:46 +0100
Subject: [PATCH 14/28] Renamed to LayerNorm...

---
 tensorflow_addons/rnn/cell.py | 30 +++++++++++-------------------
 1 file changed, 11 insertions(+), 19 deletions(-)

diff --git a/tensorflow_addons/rnn/cell.py b/tensorflow_addons/rnn/cell.py
index 81793ed070..31df88061c 100644
--- a/tensorflow_addons/rnn/cell.py
+++ b/tensorflow_addons/rnn/cell.py
@@ -369,9 +369,8 @@ def _create_norm_layer(self, name):
 
 
 @tf.keras.utils.register_keras_serializable(package='Addons')
-# class LayernormSimpleRNNCell(SimpleRNNCell, LayerNormalization):
-class LayernormSimpleRNNCell(keras.layers.SimpleRNNCell):
-    """Cell class for LayernormSimpleRNN.
+class LayerNormSimpleRNNCell(keras.layers.SimpleRNNCell):
+    """Cell class for LayerNormSimpleRNN.
 
     Motivation:
     - Drop-In Replacement for keras.layers.SimpleRNNCell
@@ -448,12 +447,12 @@ class LayernormSimpleRNNCell(keras.layers.SimpleRNNCell):
     import tensorflow_addons as tfa
 
     inputs = np.random.random([32, 10, 8]).astype(np.float32)
-    rnn = keras.layers.RNN(tfa.rnn.LayernormSimpleRNNCell(4))
+    rnn = keras.layers.RNN(tfa.rnn.LayerNormSimpleRNNCell(4))
 
     output = rnn(inputs)  # The output has shape `[32, 4]`.
 
     rnn = keras.layers.RNN(
-        tfa.rnn.LayernormSimpleRNNCell(4),
+        tfa.rnn.LayerNormSimpleRNNCell(4),
         return_sequences=True,
         return_state=True)
 
@@ -505,7 +504,6 @@ def __init__(
             dtype=kwargs.get('dtype'),
             trainable=kwargs.get('trainable', True))
         if use_layernorm:
-            # LayerNormalization.__init__(self,
             self.layernorm = keras.layers.LayerNormalization(
                 axis=-1,
                 epsilon=layernorm_epsilon,
@@ -520,12 +518,9 @@ def __init__(
                 dtype=kwargs.get('dtype'),
                 trainable=kwargs.get('trainable', True))
 
-    # @tf_utils.shape_type_conversion
     def build(self, input_shape):
-        # SimpleRNNCell.build(self, input_shape)
-        super(LayernormSimpleRNNCell, self).build(input_shape)
+        super(LayerNormSimpleRNNCell, self).build(input_shape)
         if self.use_layernorm:
-            # LayerNormalization.build(self, (None, self.units))
             self.layernorm.build((None, self.units))
 
     def call(self, inputs, states, training=None):
@@ -596,7 +591,6 @@ def call(self, inputs, states, training=None):
                                        self.recurrent_kernel)  # "net"
 
         if self.use_layernorm:
-            # output = LayerNormalization.call(self, output)
             output = self.layernorm(output)
 
         if self.bias is not None:
@@ -614,7 +608,6 @@ def get_config(self):
         cell_config = keras.layers.SimpleRNNCell.get_config(self)
         del cell_config['name']
         if self.use_layernorm:
-            # ln_config = LayerNormalization.get_config(self)
             ln_config = self.layernorm.get_config()
             ln_config = {
                 key: ln_config[key]
@@ -632,7 +625,7 @@ def get_config(self):
 
 
 @tf.keras.utils.register_keras_serializable(package='Addons')
-class LayernormSimpleRNN(keras.layers.SimpleRNN):
+class LayerNormSimpleRNN(keras.layers.SimpleRNN):
     """Fully-connected RNN with Layer Normalization.
 
     Motivation:
@@ -731,11 +724,11 @@ class LayernormSimpleRNN(keras.layers.SimpleRNN):
     import tensorflow_addons as tfa
 
     inputs = np.random.random([32, 10, 8]).astype(np.float32)
-    model = tfa.rnn.LayernormSimpleRNN(4)
+    model = tfa.rnn.LayerNormSimpleRNN(4)
 
     output = model(inputs)  # The output has shape `[32, 4]`.
 
-    model = tfa.rnn.LayernormSimpleRNN(
+    model = tfa.rnn.LayerNormSimpleRNN(
         4, return_sequences=True, return_state=True)
 
     # whole_sequence_output has shape `[32, 10, 4]`.
@@ -772,8 +765,8 @@ def __init__(
             stateful=False,
             unroll=False,
             **kwargs):
-        # 'implementation' warning was never relevant for LayernormSimpleRNN
-        cell = LayernormSimpleRNNCell(
+        # 'implementation' warning was never relevant for LayerNormSimpleRNN
+        cell = LayerNormSimpleRNNCell(
             units,
             activation=activation,
             use_bias=use_bias,
@@ -804,8 +797,7 @@ def __init__(
             stateful=stateful,
             unroll=unroll,
             **kwargs)
-        # IT'S NOT USED ANYWHERE(!):
-        # self.activity_regularizer = regularizers.get(activity_regularizer)
+        self.activity_regularizer = regularizers.get(activity_regularizer)
         # self.input_spec = [InputSpec(ndim=3)]
 
     # use SimpleRNN's call() method

From 179221b8b4464bee4f40d614726084794bd62fc9 Mon Sep 17 00:00:00 2001
From: UH <554c46@gmail.com>
Date: Mon, 13 Jan 2020 09:34:28 +0100
Subject: [PATCH 15/28] direct parent class call replaced with super

---
 tensorflow_addons/rnn/cell.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/tensorflow_addons/rnn/cell.py b/tensorflow_addons/rnn/cell.py
index 31df88061c..83b0975355 100644
--- a/tensorflow_addons/rnn/cell.py
+++ b/tensorflow_addons/rnn/cell.py
@@ -485,7 +485,7 @@ def __init__(
             recurrent_dropout=0.,
             **kwargs):
         self.use_layernorm = use_layernorm
-        keras.layers.SimpleRNNCell.__init__(
+        super(LayerNormSimpleRNNCell, self).__init__(
             self,
             units,
             activation=activation,
@@ -605,7 +605,7 @@ def call(self, inputs, states, training=None):
 
     def get_config(self):
         config = {'use_layernorm': self.use_layernorm}
-        cell_config = keras.layers.SimpleRNNCell.get_config(self)
+        cell_config = super(LayerNormSimpleRNNCell, self).get_config(self)
         del cell_config['name']
         if self.use_layernorm:
             ln_config = self.layernorm.get_config()

From 5cdedc25df6868b2a1ade247b698b3ed56c9c9a8 Mon Sep 17 00:00:00 2001
From: UH <554c46@gmail.com>
Date: Mon, 13 Jan 2020 09:56:55 +0100
Subject: [PATCH 16/28] error due to import change corrected

---
 tensorflow_addons/rnn/cell.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/tensorflow_addons/rnn/cell.py b/tensorflow_addons/rnn/cell.py
index 83b0975355..96bdea132f 100644
--- a/tensorflow_addons/rnn/cell.py
+++ b/tensorflow_addons/rnn/cell.py
@@ -797,7 +797,7 @@ def __init__(
             stateful=stateful,
             unroll=unroll,
             **kwargs)
-        self.activity_regularizer = regularizers.get(activity_regularizer)
+        self.activity_regularizer = keras.regularizers.get(activity_regularizer)
         # self.input_spec = [InputSpec(ndim=3)]
 
     # use SimpleRNN's call() method

From a5f71bb5ffe225f304fc0b628243e449bb8d9d39 Mon Sep 17 00:00:00 2001
From: UH <554c46@gmail.com>
Date: Mon, 13 Jan 2020 14:47:12 +0100
Subject: [PATCH 17/28] uncomment line

---
 tensorflow_addons/rnn/cell.py | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/tensorflow_addons/rnn/cell.py b/tensorflow_addons/rnn/cell.py
index 96bdea132f..040573ad03 100644
--- a/tensorflow_addons/rnn/cell.py
+++ b/tensorflow_addons/rnn/cell.py
@@ -797,7 +797,8 @@ def __init__(
             stateful=stateful,
             unroll=unroll,
             **kwargs)
-        self.activity_regularizer = keras.regularizers.get(activity_regularizer)
+        self.activity_regularizer = keras.regularizers.get(
+            activity_regularizer)
         # self.input_spec = [InputSpec(ndim=3)]
 
     # use SimpleRNN's call() method

From 7a3c5f182cb94621ae81b0a9eab156b9486edf00 Mon Sep 17 00:00:00 2001
From: UH <554c46@gmail.com>
Date: Mon, 13 Jan 2020 14:47:30 +0100
Subject: [PATCH 18/28] unit test added

---
 tensorflow_addons/rnn/cell_test.py | 20 ++++++++++++++++++++
 1 file changed, 20 insertions(+)

diff --git a/tensorflow_addons/rnn/cell_test.py b/tensorflow_addons/rnn/cell_test.py
index b8f9ff3013..0a13b34043 100644
--- a/tensorflow_addons/rnn/cell_test.py
+++ b/tensorflow_addons/rnn/cell_test.py
@@ -431,6 +431,26 @@ def test_regularizers_layernorm_rnn(self):
 
     # REQUIRES TRAINING - WILL TIMEOUT: test_statefulness_layernorm_rnn()
 
+    def test_versus_simplernn(self):
+        embedding_dim = 4
+        timesteps = 2
+        settings = {
+            'units': 3,
+            'bias_initializer': 'ones',
+            'kernel_initializer': 'ones',
+            'recurrent_initializer': 'ones'
+        }
+        model1 = keras.Sequential([
+            keras.layers.SimpleRNN(**settings)])
+        model2 = keras.Sequential([
+            LayernormSimpleRNN(**settings, use_layernorm=False)])
+        model1.build((None, None, embedding_dim))
+        model2.build((None, None, embedding_dim))
+        x = 0.5 * np.ones((1, timesteps, embedding_dim))
+        y_pred1 = model1.predict(x)
+        y_pred2 = model2.predict(x)
+        self.assertEqual(y_pred1, y_pred2)
+
 
 if __name__ == "__main__":
     tf.test.main()

From 022eef45a73829741eb2056505248b94f59a6590 Mon Sep 17 00:00:00 2001
From: UH <554c46@gmail.com>
Date: Mon, 13 Jan 2020 18:24:27 +0100
Subject: [PATCH 19/28] Name change in unit test file

---
 tensorflow_addons/rnn/cell_test.py | 27 +++++++++++++--------------
 1 file changed, 13 insertions(+), 14 deletions(-)

diff --git a/tensorflow_addons/rnn/cell_test.py b/tensorflow_addons/rnn/cell_test.py
index 0a13b34043..ed00c291e0 100644
--- a/tensorflow_addons/rnn/cell_test.py
+++ b/tensorflow_addons/rnn/cell_test.py
@@ -24,7 +24,7 @@
 
 from tensorflow_addons.utils import test_utils
 from tensorflow_addons.rnn import cell as rnn_cell
-from tensorflow_addons.rnn import LayernormSimpleRNN
+from tensorflow_addons.rnn import LayerNormSimpleRNN
 
 
 @test_utils.run_all_in_graph_and_eager_modes
@@ -295,14 +295,14 @@ def test_config(self):
 
 
 @test_utils.run_all_in_graph_and_eager_modes
-class LayernormSimpleRNNTest(tf.test.TestCase):
+class LayerNormSimpleRNNTest(tf.test.TestCase):
     def test_return_sequences_layernorm_rnn(self):
         num_samples = 2
         timesteps = 3
         embedding_dim = 4
         units = 2
         test_utils.layer_test(
-            LayernormSimpleRNN,
+            LayerNormSimpleRNN,
             kwargs={
                 'units': units,
                 'use_layernorm': True,
@@ -316,7 +316,7 @@ def test_float64_layernorm_rnn(self):
         embedding_dim = 4
         units = 2
         test_utils.layer_test(
-            LayernormSimpleRNN,
+            LayerNormSimpleRNN,
             kwargs={
                 'units': units,
                 'use_layernorm': True,
@@ -332,7 +332,7 @@ def test_dynamic_behavior_layernorm_rnn(self):
         timesteps = 3
         embedding_dim = 4
         units = 2
-        layer = LayernormSimpleRNN(
+        layer = LayerNormSimpleRNN(
             units, use_layernorm=True, input_shape=(None, embedding_dim))
         model = keras.models.Sequential()
         model.add(layer)
@@ -350,7 +350,7 @@ def test_dropout_layernorm_rnn(self):
         embedding_dim = 4
         units = 2
         test_utils.layer_test(
-            LayernormSimpleRNN,
+            LayerNormSimpleRNN,
             kwargs={
                 'units': units,
                 'use_layernorm': True,
@@ -361,7 +361,7 @@ def test_dropout_layernorm_rnn(self):
 
     def test_constraints_layernorm_rnn(self):
         embedding_dim = 4
-        layer_class = LayernormSimpleRNN
+        layer_class = LayerNormSimpleRNN
         k_constraint = keras.constraints.max_norm(0.01)
         r_constraint = keras.constraints.max_norm(0.01)
         b_constraint = keras.constraints.max_norm(0.01)
@@ -383,7 +383,7 @@ def test_constraints_layernorm_rnn(self):
         self.assertEqual(layer.cell.layernorm.gamma.constraint, g_constraint)
 
     def test_with_masking_layer_layernorm_rnn(self):
-        layer_class = LayernormSimpleRNN
+        layer_class = LayerNormSimpleRNN
         inputs = np.random.random((2, 3, 4))
         targets = np.abs(np.random.random((2, 3, 5)))
         targets /= targets.sum(axis=-1, keepdims=True)
@@ -399,7 +399,7 @@ def test_with_masking_layer_layernorm_rnn(self):
         model.fit(inputs, targets, epochs=1, batch_size=2, verbose=1)
 
     def test_from_config_layernorm_rnn(self):
-        layer_class = LayernormSimpleRNN
+        layer_class = LayerNormSimpleRNN
         for stateful in (False, True):
             l1 = layer_class(units=1, use_layernorm=True, stateful=stateful)
             l2 = layer_class.from_config(l1.get_config())
@@ -407,7 +407,7 @@ def test_from_config_layernorm_rnn(self):
 
     def test_regularizers_layernorm_rnn(self):
         embedding_dim = 4
-        layer_class = LayernormSimpleRNN
+        layer_class = LayerNormSimpleRNN
         layer = layer_class(
             5,
             use_layernorm=True,
@@ -440,10 +440,9 @@ def test_versus_simplernn(self):
             'kernel_initializer': 'ones',
             'recurrent_initializer': 'ones'
         }
-        model1 = keras.Sequential([
-            keras.layers.SimpleRNN(**settings)])
-        model2 = keras.Sequential([
-            LayernormSimpleRNN(**settings, use_layernorm=False)])
+        model1 = keras.Sequential([keras.layers.SimpleRNN(**settings)])
+        model2 = keras.Sequential(
+            [LayerNormSimpleRNN(**settings, use_layernorm=False)])
         model1.build((None, None, embedding_dim))
         model2.build((None, None, embedding_dim))
         x = 0.5 * np.ones((1, timesteps, embedding_dim))

From 1cce2109dccd16feb202e9be0dd02c7ce0c53706 Mon Sep 17 00:00:00 2001
From: UH <554c46@gmail.com>
Date: Mon, 13 Jan 2020 18:38:08 +0100
Subject: [PATCH 20/28] Still the class name change

---
 tensorflow_addons/rnn/__init__.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/tensorflow_addons/rnn/__init__.py b/tensorflow_addons/rnn/__init__.py
index 6c308d4b9e..d4c5201beb 100644
--- a/tensorflow_addons/rnn/__init__.py
+++ b/tensorflow_addons/rnn/__init__.py
@@ -20,5 +20,5 @@
 
 from tensorflow_addons.rnn.cell import LayerNormLSTMCell
 from tensorflow_addons.rnn.cell import NASCell
-from tensorflow_addons.rnn.cell import (LayernormSimpleRNN,
-                                        LayernormSimpleRNNCell)
+from tensorflow_addons.rnn.cell import (LayerNormSimpleRNN,
+                                        LayerNormSimpleRNNCell)

From 0ae1d43531447a7be49e1ddb96c0223f1b4b4e12 Mon Sep 17 00:00:00 2001
From: UH <554c46@gmail.com>
Date: Mon, 13 Jan 2020 19:06:33 +0100
Subject: [PATCH 21/28] deleted dtype and trainable args for parent class

---
 tensorflow_addons/rnn/cell.py | 3 +--
 1 file changed, 1 insertion(+), 2 deletions(-)

diff --git a/tensorflow_addons/rnn/cell.py b/tensorflow_addons/rnn/cell.py
index 040573ad03..46bcae7095 100644
--- a/tensorflow_addons/rnn/cell.py
+++ b/tensorflow_addons/rnn/cell.py
@@ -501,8 +501,7 @@ def __init__(
             bias_constraint=bias_constraint,
             dropout=dropout,
             recurrent_dropout=recurrent_dropout,
-            dtype=kwargs.get('dtype'),
-            trainable=kwargs.get('trainable', True))
+            **kwargs)
         if use_layernorm:
             self.layernorm = keras.layers.LayerNormalization(
                 axis=-1,

From 55e1847a790e4f94667459121b4395223d73cb1d Mon Sep 17 00:00:00 2001
From: UH <554c46@gmail.com>
Date: Mon, 13 Jan 2020 20:37:13 +0100
Subject: [PATCH 22/28] remove self for super parent class calls

---
 tensorflow_addons/rnn/cell.py      | 6 +++---
 tensorflow_addons/rnn/cell_test.py | 9 ++++++---
 2 files changed, 9 insertions(+), 6 deletions(-)

diff --git a/tensorflow_addons/rnn/cell.py b/tensorflow_addons/rnn/cell.py
index 46bcae7095..e24abb6b1b 100644
--- a/tensorflow_addons/rnn/cell.py
+++ b/tensorflow_addons/rnn/cell.py
@@ -486,7 +486,6 @@ def __init__(
             **kwargs):
         self.use_layernorm = use_layernorm
         super(LayerNormSimpleRNNCell, self).__init__(
-            self,
             units,
             activation=activation,
             use_bias=use_bias,
@@ -501,7 +500,8 @@ def __init__(
             bias_constraint=bias_constraint,
             dropout=dropout,
             recurrent_dropout=recurrent_dropout,
-            **kwargs)
+            dtype=kwargs.get('dtype'),
+            trainable=kwargs.get('trainable', True))
         if use_layernorm:
             self.layernorm = keras.layers.LayerNormalization(
                 axis=-1,
@@ -604,7 +604,7 @@ def call(self, inputs, states, training=None):
 
     def get_config(self):
         config = {'use_layernorm': self.use_layernorm}
-        cell_config = super(LayerNormSimpleRNNCell, self).get_config(self)
+        cell_config = super(LayerNormSimpleRNNCell, self).get_config()
         del cell_config['name']
         if self.use_layernorm:
             ln_config = self.layernorm.get_config()
diff --git a/tensorflow_addons/rnn/cell_test.py b/tensorflow_addons/rnn/cell_test.py
index ed00c291e0..8fcb8724f7 100644
--- a/tensorflow_addons/rnn/cell_test.py
+++ b/tensorflow_addons/rnn/cell_test.py
@@ -440,11 +440,14 @@ def test_versus_simplernn(self):
             'kernel_initializer': 'ones',
             'recurrent_initializer': 'ones'
         }
-        model1 = keras.Sequential([keras.layers.SimpleRNN(**settings)])
-        model2 = keras.Sequential(
-            [LayerNormSimpleRNN(**settings, use_layernorm=False)])
+        model1 = keras.Sequential()
+        model1.add(keras.layers.SimpleRNN(**settings))
         model1.build((None, None, embedding_dim))
+
+        model2 = keras.Sequential()
+        model2.add(LayerNormSimpleRNN(use_layernorm=False, **settings))
         model2.build((None, None, embedding_dim))
+
         x = 0.5 * np.ones((1, timesteps, embedding_dim))
         y_pred1 = model1.predict(x)
         y_pred2 = model2.predict(x)

From 08097325e3a8a37c206d80ff9d603d2422d9c153 Mon Sep 17 00:00:00 2001
From: UH <554c46@gmail.com>
Date: Mon, 13 Jan 2020 20:54:10 +0100
Subject: [PATCH 23/28] compare arrays with assertAllEqual

---
 tensorflow_addons/rnn/cell_test.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/tensorflow_addons/rnn/cell_test.py b/tensorflow_addons/rnn/cell_test.py
index 8fcb8724f7..5a4691ac6b 100644
--- a/tensorflow_addons/rnn/cell_test.py
+++ b/tensorflow_addons/rnn/cell_test.py
@@ -451,7 +451,7 @@ def test_versus_simplernn(self):
         x = 0.5 * np.ones((1, timesteps, embedding_dim))
         y_pred1 = model1.predict(x)
         y_pred2 = model2.predict(x)
-        self.assertEqual(y_pred1, y_pred2)
+        self.assertAllEqual(y_pred1, y_pred2)
 
 
 if __name__ == "__main__":

From 088d9c696ebb868feba1048bed466132e542a2dd Mon Sep 17 00:00:00 2001
From: UH <554c46@gmail.com>
Date: Wed, 15 Jan 2020 09:38:17 +0100
Subject: [PATCH 24/28] use_layernorm removed

---
 tensorflow_addons/rnn/cell.py      | 103 +++++++++--------------------
 tensorflow_addons/rnn/cell_test.py |  57 +---------------
 2 files changed, 34 insertions(+), 126 deletions(-)

diff --git a/tensorflow_addons/rnn/cell.py b/tensorflow_addons/rnn/cell.py
index e24abb6b1b..9905203281 100644
--- a/tensorflow_addons/rnn/cell.py
+++ b/tensorflow_addons/rnn/cell.py
@@ -372,11 +372,6 @@ def _create_norm_layer(self, name):
 class LayerNormSimpleRNNCell(keras.layers.SimpleRNNCell):
     """Cell class for LayerNormSimpleRNN.
 
-    Motivation:
-    - Drop-In Replacement for keras.layers.SimpleRNNCell
-    - demonstrate how to add keras.layers.LayerNormalization
-       to all RNNs by introducing the `use_layernorm` argument
-
     References:
     [1] Ba, Jimmy Lei, Jamie Ryan Kiros, and Geoffrey E. Hinton.
         "Layer Normalization." ArXiv:1607.06450 [Cs, Stat],
@@ -390,8 +385,6 @@ class LayerNormSimpleRNNCell(keras.layers.SimpleRNNCell):
         (ie. "linear" activation: `a(x) = x`).
       use_bias: Boolean, (default `True`), whether the layer uses a bias
         vector.
-      use_layernorm: Boolean, (default `True`), whether to apply layer
-        normalization (scaling only).
       layernorm_epsilon: Float, (default `1e-5`), Small float added to variance
         to avoid dividing by zero.
       kernel_initializer: Initializer for the `kernel` weights matrix,
@@ -400,31 +393,26 @@ class LayerNormSimpleRNNCell(keras.layers.SimpleRNNCell):
       recurrent_initializer: Initializer for the `recurrent_kernel`
         weights matrix, used for the linear transformation of the recurrent
         state. Default: `orthogonal`.
-      bias_initializer: Initializer for the bias vector (`use_bias=True`) or
-         for the beta vector in layer normalization (`use_layernorm=True`).
+      bias_initializer: Initializer for the bias vector (`use_bias=True`).
          Default: `zeros`.
       gamma_initializer: Initializer for the gamma vector of the layer
-         normalization layer (`use_layernorm=True`). Default: `ones`.
+         normalization layer. Default: `ones`.
       kernel_regularizer: Regularizer function applied to the `kernel` weights
         matrix. Default: `None`.
       recurrent_regularizer: Regularizer function applied to the
         `recurrent_kernel` weights matrix. Default: `None`.
       bias_regularizer: Regularizer function applied to the bias vector
-         (`use_bias=True`) or for the beta vector of the layer normalization
-         layer (`use_layernorm=True`). Default: `None`.
+         (`use_bias=True`). Default: `None`.
       gamma_regularizer: Regularizer function applied to the gamma vector
-         of the layer normalization layer (`use_layernorm=True`).
-         Default: `None`.
+         of the layer normalization layer. Default: `None`.
       kernel_constraint: Constraint function applied to the `kernel` weights
         matrix. Default: `None`.
       recurrent_constraint: Constraint function applied to the
         `recurrent_kernel` weights matrix. Default: `None`.
       bias_constraint: Constraint function applied to the bias vector
-         (`use_bias=True`) or for the beta vector of the layer normalization
-         layer (`use_layernorm=True`). Default: `None`.
+         (`use_bias=True`). Default: `None`.
       gamma_constraint: Constraint function applied to the gamma vector
-         of the layer normalization layer (`use_layernorm=True`).
-         Default: `None`.
+         of the layer normalization layer. Default: `None`.
       dropout: Float between 0 and 1. Fraction of the units to drop for the
         linear transformation of the inputs. Default: 0.
       recurrent_dropout: Float between 0 and 1. Fraction of the units to drop
@@ -467,7 +455,6 @@ def __init__(
             units,
             activation='tanh',
             use_bias=True,
-            use_layernorm=True,  # NEW(!)
             layernorm_epsilon=1e-05,  # NEW(!)
             kernel_initializer='glorot_uniform',
             recurrent_initializer='orthogonal',
@@ -484,7 +471,6 @@ def __init__(
             dropout=0.,
             recurrent_dropout=0.,
             **kwargs):
-        self.use_layernorm = use_layernorm
         super(LayerNormSimpleRNNCell, self).__init__(
             units,
             activation=activation,
@@ -502,25 +488,23 @@ def __init__(
             recurrent_dropout=recurrent_dropout,
             dtype=kwargs.get('dtype'),
             trainable=kwargs.get('trainable', True))
-        if use_layernorm:
-            self.layernorm = keras.layers.LayerNormalization(
-                axis=-1,
-                epsilon=layernorm_epsilon,
-                center=False,
-                scale=True,
-                beta_initializer=None,
-                gamma_initializer=gamma_initializer,
-                beta_regularizer=None,
-                gamma_regularizer=gamma_regularizer,
-                beta_constraint=None,
-                gamma_constraint=gamma_constraint,
-                dtype=kwargs.get('dtype'),
-                trainable=kwargs.get('trainable', True))
+        self.layernorm = keras.layers.LayerNormalization(
+            axis=-1,
+            epsilon=layernorm_epsilon,
+            center=False,
+            scale=True,
+            beta_initializer=None,
+            gamma_initializer=gamma_initializer,
+            beta_regularizer=None,
+            gamma_regularizer=gamma_regularizer,
+            beta_constraint=None,
+            gamma_constraint=gamma_constraint,
+            dtype=kwargs.get('dtype'),
+            trainable=kwargs.get('trainable', True))
 
     def build(self, input_shape):
         super(LayerNormSimpleRNNCell, self).build(input_shape)
-        if self.use_layernorm:
-            self.layernorm.build((None, self.units))
+        self.layernorm.build((None, self.units))
 
     def call(self, inputs, states, training=None):
         """Formulas.
@@ -589,8 +573,7 @@ def call(self, inputs, states, training=None):
         output = h + keras.backend.dot(prev_output,
                                        self.recurrent_kernel)  # "net"
 
-        if self.use_layernorm:
-            output = self.layernorm(output)
+        output = self.layernorm(output)
 
         if self.bias is not None:
             output = keras.backend.bias_add(output, self.bias)
@@ -603,21 +586,19 @@ def call(self, inputs, states, training=None):
     # use SimpleRNNCell's get_initial_state method
 
     def get_config(self):
-        config = {'use_layernorm': self.use_layernorm}
         cell_config = super(LayerNormSimpleRNNCell, self).get_config()
         del cell_config['name']
-        if self.use_layernorm:
-            ln_config = self.layernorm.get_config()
-            ln_config = {
+
+        ln_config = self.layernorm.get_config()
+        ln_config = {
                 key: ln_config[key]
                 for key in [
                     "epsilon", "gamma_initializer", "gamma_regularizer",
                     "gamma_constraint"
                 ] if key in ln_config
-            }
-            ln_config['layernorm_epsilon'] = ln_config.pop("epsilon")
-        else:
-            ln_config = {}
+        }
+        ln_config['layernorm_epsilon'] = ln_config.pop("epsilon")
+
         return dict(
             list(config.items()) + list(cell_config.items()) +
             list(ln_config.items()))
@@ -627,11 +608,6 @@ def get_config(self):
 class LayerNormSimpleRNN(keras.layers.SimpleRNN):
     """Fully-connected RNN with Layer Normalization.
 
-    Motivation:
-    - Drop-In Replacement for keras.layers.SimpleRNN
-    - demonstrate how to add keras.layers.LayerNormalization
-       to all RNNs by introducing the `use_layernorm` argument
-
     References:
     [1] Ba, Jimmy Lei, Jamie Ryan Kiros, and Geoffrey E. Hinton.
         "Layer Normalization." ArXiv:1607.06450 [Cs, Stat],
@@ -645,8 +621,6 @@ class LayerNormSimpleRNN(keras.layers.SimpleRNN):
         (ie. "linear" activation: `a(x) = x`).
       use_bias: Boolean, (default `True`), whether the layer uses a bias
         vector.
-      use_layernorm: Boolean, (default `True`), whether to apply layer
-        normalization (scaling only).
       layernorm_epsilon: Float, (default `1e-5`), Small float added to variance
         to avoid dividing by zero.
       kernel_initializer: Initializer for the `kernel` weights matrix,
@@ -655,21 +629,18 @@ class LayerNormSimpleRNN(keras.layers.SimpleRNN):
       recurrent_initializer: Initializer for the `recurrent_kernel`
         weights matrix, used for the linear transformation of the recurrent
         state. Default: `orthogonal`.
-      bias_initializer: Initializer for the bias vector (`use_bias=True`) or
-         for the beta vector in layer normalization (`use_layernorm=True`).
+      bias_initializer: Initializer for the bias vector (`use_bias=True`).
          Default: `zeros`.
       gamma_initializer: Initializer for the gamma vector of the layer
-         normalization layer (`use_layernorm=True`). Default: `ones`.
+         normalization layer. Default: `ones`.
       kernel_regularizer: Regularizer function applied to the `kernel` weights
         matrix. Default: `None`.
       recurrent_regularizer: Regularizer function applied to the
         `recurrent_kernel` weights matrix. Default: `None`.
       bias_regularizer: Regularizer function applied to the bias vector
-         (`use_bias=True`) or for the beta vector of the layer normalization
-         layer (`use_layernorm=True`). Default: `None`.
+         (`use_bias=True`). Default: `None`.
       gamma_regularizer: Regularizer function applied to the gamma vector
-         of the layer normalization layer (`use_layernorm=True`).
-         Default: `None`.
+         of the layer normalization layer. Default: `None`.
       activity_regularizer: Regularizer function applied to the output of the
         layer (its "activation"). Default: `None`.
       kernel_constraint: Constraint function applied to the `kernel` weights
@@ -677,11 +648,9 @@ class LayerNormSimpleRNN(keras.layers.SimpleRNN):
       recurrent_constraint: Constraint function applied to the
         `recurrent_kernel` weights matrix.  Default: `None`.
       bias_constraint: Constraint function applied to the bias vector
-         (`use_bias=True`) or for the beta vector of the layer normalization
-         layer (`use_layernorm=True`). Default: `None`.
+         (`use_bias=True`). Default: `None`.
       gamma_constraint: Constraint function applied to the gamma vector
-         of the layer normalization layer (`use_layernorm=True`).
-         Default: `None`.
+         of the layer normalization layer. Default: `None`.
       dropout: Float between 0 and 1.
         Fraction of the units to drop for the linear transformation of the
         inputs. Default: 0.
@@ -741,7 +710,6 @@ def __init__(
             units,
             activation='tanh',
             use_bias=True,
-            use_layernorm=True,  # NEW(!)
             layernorm_epsilon=1e-05,  # NEW(!)
             kernel_initializer='glorot_uniform',
             recurrent_initializer='orthogonal',
@@ -769,7 +737,6 @@ def __init__(
             units,
             activation=activation,
             use_bias=use_bias,
-            use_layernorm=use_layernorm,  # NEW(!)
             layernorm_epsilon=layernorm_epsilon,  # NEW(!)
             kernel_initializer=kernel_initializer,
             recurrent_initializer=recurrent_initializer,
@@ -802,10 +769,6 @@ def __init__(
 
     # use SimpleRNN's call() method
 
-    @property
-    def use_layernorm(self):
-        return self.cell.use_layernorm
-
     @property
     def layernorm_epsilon(self):
         return self.cell.layernorm_epsilon
diff --git a/tensorflow_addons/rnn/cell_test.py b/tensorflow_addons/rnn/cell_test.py
index 5a4691ac6b..0eece5ff2a 100644
--- a/tensorflow_addons/rnn/cell_test.py
+++ b/tensorflow_addons/rnn/cell_test.py
@@ -305,7 +305,6 @@ def test_return_sequences_layernorm_rnn(self):
             LayerNormSimpleRNN,
             kwargs={
                 'units': units,
-                'use_layernorm': True,
                 'return_sequences': True
             },
             input_shape=(num_samples, timesteps, embedding_dim))
@@ -319,31 +318,12 @@ def test_float64_layernorm_rnn(self):
             LayerNormSimpleRNN,
             kwargs={
                 'units': units,
-                'use_layernorm': True,
                 'return_sequences': True,
                 'dtype': 'float64'
             },
             input_shape=(num_samples, timesteps, embedding_dim),
             input_dtype='float64')
 
-    """ REQUIRES TRAINING - WILL TIMEOUT
-    def test_dynamic_behavior_layernorm_rnn(self):
-        num_samples = 2
-        timesteps = 3
-        embedding_dim = 4
-        units = 2
-        layer = LayerNormSimpleRNN(
-            units, use_layernorm=True, input_shape=(None, embedding_dim))
-        model = keras.models.Sequential()
-        model.add(layer)
-        model.compile('rmsprop', 'mse')
-        x = np.random.random((num_samples, timesteps, embedding_dim))
-        y = np.random.random((num_samples, units))
-        model.train_on_batch(x, y)
-    """
-
-    # DELETED TEST: test_implementation_mode_layernorm_rnn
-
     def test_dropout_layernorm_rnn(self):
         num_samples = 2
         timesteps = 3
@@ -353,7 +333,6 @@ def test_dropout_layernorm_rnn(self):
             LayerNormSimpleRNN,
             kwargs={
                 'units': units,
-                'use_layernorm': True,
                 'dropout': 0.1,
                 'recurrent_dropout': 0.1
             },
@@ -368,7 +347,6 @@ def test_constraints_layernorm_rnn(self):
         g_constraint = keras.constraints.max_norm(0.01)
         layer = layer_class(
             5,
-            use_layernorm=True,
             return_sequences=False,
             weights=None,
             input_shape=(None, embedding_dim),
@@ -392,7 +370,6 @@ def test_with_masking_layer_layernorm_rnn(self):
         model.add(
             layer_class(
                 units=5,
-                use_layernorm=True,
                 return_sequences=True,
                 unroll=False))
         model.compile(loss='categorical_crossentropy', optimizer='rmsprop')
@@ -401,7 +378,7 @@ def test_with_masking_layer_layernorm_rnn(self):
     def test_from_config_layernorm_rnn(self):
         layer_class = LayerNormSimpleRNN
         for stateful in (False, True):
-            l1 = layer_class(units=1, use_layernorm=True, stateful=stateful)
+            l1 = layer_class(units=1, stateful=stateful)
             l2 = layer_class.from_config(l1.get_config())
             assert l1.get_config() == l2.get_config()
 
@@ -410,7 +387,6 @@ def test_regularizers_layernorm_rnn(self):
         layer_class = LayerNormSimpleRNN
         layer = layer_class(
             5,
-            use_layernorm=True,
             return_sequences=False,
             weights=None,
             input_shape=(None, embedding_dim),
@@ -422,37 +398,6 @@ def test_regularizers_layernorm_rnn(self):
         layer.build((None, None, 2))
         self.assertEqual(len(layer.losses), 4)
 
-        #x = keras.backend.variable(np.ones((2, 3, 2)))
-        #layer(x)
-        #if context.executing_eagerly():
-        #    self.assertEqual(len(layer.losses), 4)
-        #else:
-        #    self.assertEqual(len(layer.get_losses_for(x)), 1)
-
-    # REQUIRES TRAINING - WILL TIMEOUT: test_statefulness_layernorm_rnn()
-
-    def test_versus_simplernn(self):
-        embedding_dim = 4
-        timesteps = 2
-        settings = {
-            'units': 3,
-            'bias_initializer': 'ones',
-            'kernel_initializer': 'ones',
-            'recurrent_initializer': 'ones'
-        }
-        model1 = keras.Sequential()
-        model1.add(keras.layers.SimpleRNN(**settings))
-        model1.build((None, None, embedding_dim))
-
-        model2 = keras.Sequential()
-        model2.add(LayerNormSimpleRNN(use_layernorm=False, **settings))
-        model2.build((None, None, embedding_dim))
-
-        x = 0.5 * np.ones((1, timesteps, embedding_dim))
-        y_pred1 = model1.predict(x)
-        y_pred2 = model2.predict(x)
-        self.assertAllEqual(y_pred1, y_pred2)
-
 
 if __name__ == "__main__":
     tf.test.main()

From 944ae38263990186191fc31af4745f8bf1c80026 Mon Sep 17 00:00:00 2001
From: UH <554c46@gmail.com>
Date: Wed, 15 Jan 2020 10:01:31 +0100
Subject: [PATCH 25/28] dict removed from return statement

---
 tensorflow_addons/rnn/cell.py | 5 +----
 1 file changed, 1 insertion(+), 4 deletions(-)

diff --git a/tensorflow_addons/rnn/cell.py b/tensorflow_addons/rnn/cell.py
index 9905203281..acca82f886 100644
--- a/tensorflow_addons/rnn/cell.py
+++ b/tensorflow_addons/rnn/cell.py
@@ -598,10 +598,7 @@ def get_config(self):
                 ] if key in ln_config
         }
         ln_config['layernorm_epsilon'] = ln_config.pop("epsilon")
-
-        return dict(
-            list(config.items()) + list(cell_config.items()) +
-            list(ln_config.items()))
+        return dict(list(cell_config.items()) + list(ln_config.items()))
 
 
 @tf.keras.utils.register_keras_serializable(package='Addons')

From 61be862909e401291d8cfd3d602c24658e53cde6 Mon Sep 17 00:00:00 2001
From: UH <554c46@gmail.com>
Date: Wed, 22 Jan 2020 14:00:14 +0100
Subject: [PATCH 26/28] LayerNormSimpleRNN removed, use kwargs, comments
 removed

---
 tensorflow_addons/rnn/__init__.py  |   3 +-
 tensorflow_addons/rnn/cell.py      | 256 ++++-------------------------
 tensorflow_addons/rnn/cell_test.py |  91 +++-------
 3 files changed, 53 insertions(+), 297 deletions(-)

diff --git a/tensorflow_addons/rnn/__init__.py b/tensorflow_addons/rnn/__init__.py
index d4c5201beb..bd171c522a 100644
--- a/tensorflow_addons/rnn/__init__.py
+++ b/tensorflow_addons/rnn/__init__.py
@@ -20,5 +20,4 @@
 
 from tensorflow_addons.rnn.cell import LayerNormLSTMCell
 from tensorflow_addons.rnn.cell import NASCell
-from tensorflow_addons.rnn.cell import (LayerNormSimpleRNN,
-                                        LayerNormSimpleRNNCell)
+from tensorflow_addons.rnn.cell import LayerNormSimpleRNNCell
diff --git a/tensorflow_addons/rnn/cell.py b/tensorflow_addons/rnn/cell.py
index acca82f886..93b374eb1f 100644
--- a/tensorflow_addons/rnn/cell.py
+++ b/tensorflow_addons/rnn/cell.py
@@ -450,27 +450,26 @@ class LayerNormSimpleRNNCell(keras.layers.SimpleRNNCell):
     ```
     """
 
-    def __init__(
-            self,
-            units,
-            activation='tanh',
-            use_bias=True,
-            layernorm_epsilon=1e-05,  # NEW(!)
-            kernel_initializer='glorot_uniform',
-            recurrent_initializer='orthogonal',
-            bias_initializer='zeros',
-            gamma_initializer='ones',  # NEW(!)
-            kernel_regularizer=None,
-            recurrent_regularizer=None,
-            bias_regularizer=None,
-            gamma_regularizer=None,  # NEW(!)
-            kernel_constraint=None,
-            recurrent_constraint=None,
-            bias_constraint=None,
-            gamma_constraint=None,  # NEW(!)
-            dropout=0.,
-            recurrent_dropout=0.,
-            **kwargs):
+    def __init__(self,
+                 units,
+                 activation='tanh',
+                 use_bias=True,
+                 layernorm_epsilon=1e-05,
+                 kernel_initializer='glorot_uniform',
+                 recurrent_initializer='orthogonal',
+                 bias_initializer='zeros',
+                 gamma_initializer='ones',
+                 kernel_regularizer=None,
+                 recurrent_regularizer=None,
+                 bias_regularizer=None,
+                 gamma_regularizer=None,
+                 kernel_constraint=None,
+                 recurrent_constraint=None,
+                 bias_constraint=None,
+                 gamma_constraint=None,
+                 dropout=0.,
+                 recurrent_dropout=0.,
+                 **kwargs):
         super(LayerNormSimpleRNNCell, self).__init__(
             units,
             activation=activation,
@@ -485,9 +484,8 @@ def __init__(
             recurrent_constraint=recurrent_constraint,
             bias_constraint=bias_constraint,
             dropout=dropout,
-            recurrent_dropout=recurrent_dropout,
-            dtype=kwargs.get('dtype'),
-            trainable=kwargs.get('trainable', True))
+            recurrent_dropout=recurrent_dropout)
+        #**kwargs)
         self.layernorm = keras.layers.LayerNormalization(
             axis=-1,
             epsilon=layernorm_epsilon,
@@ -522,14 +520,15 @@ def call(self, inputs, states, training=None):
             f : Activation function (`self.activation`)
 
         Case 1:
-            Simple RNN, only with bias and activation
+            Keras' SimpleRNN. Only with bias and activation
               y_t = f(x_t * W_xh + y_{t-1} * W_hh + b)
             or
               net = x_t * W_xh + y_{t-1} * W_hh
               y_t = f(net + b)
 
         Case 2:
-            RNN with, layer normalization (only scaling), bias and activation.
+            addons' LayerNormSimpleRNNCell. Like case 1 but with layer
+            normalization (only scaling).
               y_t = f(ln(x_t * W_xh + y_{t-1} * W_hh) + b)
             or
               net = x_t * W_xh + y_{t-1} * W_hh
@@ -541,15 +540,15 @@ def call(self, inputs, states, training=None):
             centering directly afterwards.
 
         Case 3:
-            RNN, with dropout, bias, and activation (no scaling from LN)
+            Keras' SimpleRNN. with dropout, bias, and activation
               y_t = f(d1(x_t) * W_xh + d2(y_{t-1}) * W_hh + b)
             or
               net = d1(x_t) * W_xh + d2(y_{t-1}) * W_hh
               y_t = f(net + b)
 
         Case 4:
-            Everyting is used, i.e. all dropouts, layer normalization
-            (only scaling), bias, and activation
+            addons' LayerNormSimpleRNNCell. Like case 3 but with layer
+            normalization (only scaling).
               y_t = f(ln(d1(x_t) * W_xh + d2(y_{t-1}) * W_hh) + b)
             or
               net = d1(x_t) * W_xh + d2(y_{t-1}) * W_hh
@@ -591,200 +590,11 @@ def get_config(self):
 
         ln_config = self.layernorm.get_config()
         ln_config = {
-                key: ln_config[key]
-                for key in [
-                    "epsilon", "gamma_initializer", "gamma_regularizer",
-                    "gamma_constraint"
-                ] if key in ln_config
+            key: ln_config[key]
+            for key in [
+                "epsilon", "gamma_initializer", "gamma_regularizer",
+                "gamma_constraint"
+            ] if key in ln_config
         }
         ln_config['layernorm_epsilon'] = ln_config.pop("epsilon")
         return dict(list(cell_config.items()) + list(ln_config.items()))
-
-
-@tf.keras.utils.register_keras_serializable(package='Addons')
-class LayerNormSimpleRNN(keras.layers.SimpleRNN):
-    """Fully-connected RNN with Layer Normalization.
-
-    References:
-    [1] Ba, Jimmy Lei, Jamie Ryan Kiros, and Geoffrey E. Hinton.
-        "Layer Normalization." ArXiv:1607.06450 [Cs, Stat],
-        July 21, 2016. http://arxiv.org/abs/1607.06450
-
-    Arguments:
-      units: Positive integer, dimensionality of the output space.
-      activation: Activation function to use.
-        Default: hyperbolic tangent (`tanh`).
-        If you pass None, no activation is applied
-        (ie. "linear" activation: `a(x) = x`).
-      use_bias: Boolean, (default `True`), whether the layer uses a bias
-        vector.
-      layernorm_epsilon: Float, (default `1e-5`), Small float added to variance
-        to avoid dividing by zero.
-      kernel_initializer: Initializer for the `kernel` weights matrix,
-        used for the linear transformation of the inputs. Default:
-        `glorot_uniform`.
-      recurrent_initializer: Initializer for the `recurrent_kernel`
-        weights matrix, used for the linear transformation of the recurrent
-        state. Default: `orthogonal`.
-      bias_initializer: Initializer for the bias vector (`use_bias=True`).
-         Default: `zeros`.
-      gamma_initializer: Initializer for the gamma vector of the layer
-         normalization layer. Default: `ones`.
-      kernel_regularizer: Regularizer function applied to the `kernel` weights
-        matrix. Default: `None`.
-      recurrent_regularizer: Regularizer function applied to the
-        `recurrent_kernel` weights matrix. Default: `None`.
-      bias_regularizer: Regularizer function applied to the bias vector
-         (`use_bias=True`). Default: `None`.
-      gamma_regularizer: Regularizer function applied to the gamma vector
-         of the layer normalization layer. Default: `None`.
-      activity_regularizer: Regularizer function applied to the output of the
-        layer (its "activation"). Default: `None`.
-      kernel_constraint: Constraint function applied to the `kernel` weights
-        matrix. Default: `None`.
-      recurrent_constraint: Constraint function applied to the
-        `recurrent_kernel` weights matrix.  Default: `None`.
-      bias_constraint: Constraint function applied to the bias vector
-         (`use_bias=True`). Default: `None`.
-      gamma_constraint: Constraint function applied to the gamma vector
-         of the layer normalization layer. Default: `None`.
-      dropout: Float between 0 and 1.
-        Fraction of the units to drop for the linear transformation of the
-        inputs. Default: 0.
-      recurrent_dropout: Float between 0 and 1.
-        Fraction of the units to drop for the linear transformation of the
-        recurrent state. Default: 0.
-      return_sequences: Boolean. Whether to return the last output
-        in the output sequence, or the full sequence. Default: `False`.
-      return_state: Boolean. Whether to return the last state
-        in addition to the output. Default: `False`
-      go_backwards: Boolean (default False).
-        If True, process the input sequence backwards and return the
-        reversed sequence.
-      stateful: Boolean (default False). If True, the last state
-        for each sample at index i in a batch will be used as initial
-        state for the sample of index i in the following batch.
-      unroll: Boolean (default False).
-        If True, the network will be unrolled,
-        else a symbolic loop will be used.
-        Unrolling can speed-up a RNN,
-        although it tends to be more memory-intensive.
-        Unrolling is only suitable for short sequences.
-
-    Call arguments:
-      inputs: A 3D tensor, with shape `[batch, timesteps, feature]`.
-      mask: Binary tensor of shape `[batch, timesteps]` indicating whether
-        a given timestep should be masked.
-      training: Python boolean indicating whether the layer should behave in
-        training mode or in inference mode. This argument is passed to the cell
-        when calling it. This is only relevant if `dropout` or
-        `recurrent_dropout` is used.
-      initial_state: List of initial state tensors to be passed to the first
-        call of the cell.
-
-    Examples:
-
-    ```python
-    import numpy as np
-    import tensorflow_addons as tfa
-
-    inputs = np.random.random([32, 10, 8]).astype(np.float32)
-    model = tfa.rnn.LayerNormSimpleRNN(4)
-
-    output = model(inputs)  # The output has shape `[32, 4]`.
-
-    model = tfa.rnn.LayerNormSimpleRNN(
-        4, return_sequences=True, return_state=True)
-
-    # whole_sequence_output has shape `[32, 10, 4]`.
-    # final_state has shape `[32, 4]`.
-    whole_sequence_output, final_state = model(inputs)
-    ```
-    """
-
-    def __init__(
-            self,
-            units,
-            activation='tanh',
-            use_bias=True,
-            layernorm_epsilon=1e-05,  # NEW(!)
-            kernel_initializer='glorot_uniform',
-            recurrent_initializer='orthogonal',
-            bias_initializer='zeros',
-            gamma_initializer='ones',  # NEW(!)
-            kernel_regularizer=None,
-            recurrent_regularizer=None,
-            bias_regularizer=None,
-            gamma_regularizer=None,  # NEW(!)
-            activity_regularizer=None,
-            kernel_constraint=None,
-            recurrent_constraint=None,
-            bias_constraint=None,
-            gamma_constraint=None,  # NEW(!)
-            dropout=0.,
-            recurrent_dropout=0.,
-            return_sequences=False,
-            return_state=False,
-            go_backwards=False,
-            stateful=False,
-            unroll=False,
-            **kwargs):
-        # 'implementation' warning was never relevant for LayerNormSimpleRNN
-        cell = LayerNormSimpleRNNCell(
-            units,
-            activation=activation,
-            use_bias=use_bias,
-            layernorm_epsilon=layernorm_epsilon,  # NEW(!)
-            kernel_initializer=kernel_initializer,
-            recurrent_initializer=recurrent_initializer,
-            bias_initializer=bias_initializer,
-            gamma_initializer=gamma_initializer,  # NEW(!)
-            kernel_regularizer=kernel_regularizer,
-            recurrent_regularizer=recurrent_regularizer,
-            bias_regularizer=bias_regularizer,
-            gamma_regularizer=gamma_regularizer,  # NEW(!)
-            activity_regularizer=activity_regularizer,
-            kernel_constraint=kernel_constraint,
-            recurrent_constraint=recurrent_constraint,
-            bias_constraint=bias_constraint,
-            gamma_constraint=gamma_constraint,  # NEW(!)
-            dropout=dropout,
-            recurrent_dropout=recurrent_dropout,
-            dtype=kwargs.get('dtype'),
-            trainable=kwargs.get('trainable', True))
-        super(keras.layers.SimpleRNN, self).__init__(  # call RNN's init
-            cell,
-            return_sequences=return_sequences,
-            return_state=return_state,
-            go_backwards=go_backwards,
-            stateful=stateful,
-            unroll=unroll,
-            **kwargs)
-        self.activity_regularizer = keras.regularizers.get(
-            activity_regularizer)
-        # self.input_spec = [InputSpec(ndim=3)]
-
-    # use SimpleRNN's call() method
-
-    @property
-    def layernorm_epsilon(self):
-        return self.cell.layernorm_epsilon
-
-    @property
-    def gamma_initializer(self):
-        return self.cell.gamma_initializer
-
-    @property
-    def gamma_regularizer(self):
-        return self.cell.gamma_regularizer
-
-    @property
-    def gamma_constraint(self):
-        return self.cell.gamma_constraint
-
-    def get_config(self):
-        base_config = super(keras.layers.SimpleRNN,
-                            self).get_config()  # get RNN's config
-        del base_config['cell']
-        cell_config = self.cell.get_config()
-        return dict(list(base_config.items()) + list(cell_config.items()))
diff --git a/tensorflow_addons/rnn/cell_test.py b/tensorflow_addons/rnn/cell_test.py
index 0eece5ff2a..22c68d99ad 100644
--- a/tensorflow_addons/rnn/cell_test.py
+++ b/tensorflow_addons/rnn/cell_test.py
@@ -24,7 +24,7 @@
 
 from tensorflow_addons.utils import test_utils
 from tensorflow_addons.rnn import cell as rnn_cell
-from tensorflow_addons.rnn import LayerNormSimpleRNN
+from tensorflow_addons.rnn import LayerNormSimpleRNNCell
 
 
 @test_utils.run_all_in_graph_and_eager_modes
@@ -296,64 +296,21 @@ def test_config(self):
 
 @test_utils.run_all_in_graph_and_eager_modes
 class LayerNormSimpleRNNTest(tf.test.TestCase):
-    def test_return_sequences_layernorm_rnn(self):
-        num_samples = 2
-        timesteps = 3
-        embedding_dim = 4
-        units = 2
-        test_utils.layer_test(
-            LayerNormSimpleRNN,
-            kwargs={
-                'units': units,
-                'return_sequences': True
-            },
-            input_shape=(num_samples, timesteps, embedding_dim))
-
-    def test_float64_layernorm_rnn(self):
-        num_samples = 2
-        timesteps = 3
-        embedding_dim = 4
-        units = 2
-        test_utils.layer_test(
-            LayerNormSimpleRNN,
-            kwargs={
-                'units': units,
-                'return_sequences': True,
-                'dtype': 'float64'
-            },
-            input_shape=(num_samples, timesteps, embedding_dim),
-            input_dtype='float64')
-
-    def test_dropout_layernorm_rnn(self):
-        num_samples = 2
-        timesteps = 3
-        embedding_dim = 4
-        units = 2
-        test_utils.layer_test(
-            LayerNormSimpleRNN,
-            kwargs={
-                'units': units,
-                'dropout': 0.1,
-                'recurrent_dropout': 0.1
-            },
-            input_shape=(num_samples, timesteps, embedding_dim))
-
     def test_constraints_layernorm_rnn(self):
         embedding_dim = 4
-        layer_class = LayerNormSimpleRNN
         k_constraint = keras.constraints.max_norm(0.01)
         r_constraint = keras.constraints.max_norm(0.01)
         b_constraint = keras.constraints.max_norm(0.01)
         g_constraint = keras.constraints.max_norm(0.01)
-        layer = layer_class(
-            5,
-            return_sequences=False,
-            weights=None,
+        layer = keras.layers.RNN(
+            LayerNormSimpleRNNCell(
+                units=5,
+                kernel_constraint=k_constraint,
+                recurrent_constraint=r_constraint,
+                bias_constraint=b_constraint,
+                gamma_constraint=g_constraint),
             input_shape=(None, embedding_dim),
-            kernel_constraint=k_constraint,
-            recurrent_constraint=r_constraint,
-            bias_constraint=b_constraint,
-            gamma_constraint=g_constraint)
+            return_sequences=False)
         layer.build((None, None, embedding_dim))
         self.assertEqual(layer.cell.kernel.constraint, k_constraint)
         self.assertEqual(layer.cell.recurrent_kernel.constraint, r_constraint)
@@ -361,40 +318,30 @@ def test_constraints_layernorm_rnn(self):
         self.assertEqual(layer.cell.layernorm.gamma.constraint, g_constraint)
 
     def test_with_masking_layer_layernorm_rnn(self):
-        layer_class = LayerNormSimpleRNN
         inputs = np.random.random((2, 3, 4))
         targets = np.abs(np.random.random((2, 3, 5)))
         targets /= targets.sum(axis=-1, keepdims=True)
         model = keras.models.Sequential()
         model.add(keras.layers.Masking(input_shape=(3, 4)))
         model.add(
-            layer_class(
-                units=5,
+            keras.layers.RNN(
+                LayerNormSimpleRNNCell(units=5),
                 return_sequences=True,
                 unroll=False))
         model.compile(loss='categorical_crossentropy', optimizer='rmsprop')
         model.fit(inputs, targets, epochs=1, batch_size=2, verbose=1)
 
-    def test_from_config_layernorm_rnn(self):
-        layer_class = LayerNormSimpleRNN
-        for stateful in (False, True):
-            l1 = layer_class(units=1, stateful=stateful)
-            l2 = layer_class.from_config(l1.get_config())
-            assert l1.get_config() == l2.get_config()
-
     def test_regularizers_layernorm_rnn(self):
         embedding_dim = 4
-        layer_class = LayerNormSimpleRNN
-        layer = layer_class(
-            5,
-            return_sequences=False,
-            weights=None,
+        layer = keras.layers.RNN(
+            LayerNormSimpleRNNCell(
+                units=5,
+                kernel_regularizer=keras.regularizers.l1(0.01),
+                recurrent_regularizer=keras.regularizers.l1(0.01),
+                bias_regularizer='l2',
+                gamma_regularizer='l2'),
             input_shape=(None, embedding_dim),
-            kernel_regularizer=keras.regularizers.l1(0.01),
-            recurrent_regularizer=keras.regularizers.l1(0.01),
-            bias_regularizer='l2',
-            gamma_regularizer='l2')
-        # activity_regularizer='l1'  # DOESN'T DO ANYTHING
+            return_sequences=False)
         layer.build((None, None, 2))
         self.assertEqual(len(layer.losses), 4)
 

From bb1655fb4125935b1ad7b394900a571da3d47ac0 Mon Sep 17 00:00:00 2001
From: UH <554c46@gmail.com>
Date: Wed, 22 Jan 2020 14:09:35 +0100
Subject: [PATCH 27/28] forward **kwargs to other layers

---
 tensorflow_addons/rnn/cell.py | 7 +++----
 1 file changed, 3 insertions(+), 4 deletions(-)

diff --git a/tensorflow_addons/rnn/cell.py b/tensorflow_addons/rnn/cell.py
index 93b374eb1f..f05b46c9ba 100644
--- a/tensorflow_addons/rnn/cell.py
+++ b/tensorflow_addons/rnn/cell.py
@@ -484,8 +484,8 @@ def __init__(self,
             recurrent_constraint=recurrent_constraint,
             bias_constraint=bias_constraint,
             dropout=dropout,
-            recurrent_dropout=recurrent_dropout)
-        #**kwargs)
+            recurrent_dropout=recurrent_dropout,
+            **kwargs)
         self.layernorm = keras.layers.LayerNormalization(
             axis=-1,
             epsilon=layernorm_epsilon,
@@ -497,8 +497,7 @@ def __init__(self,
             gamma_regularizer=gamma_regularizer,
             beta_constraint=None,
             gamma_constraint=gamma_constraint,
-            dtype=kwargs.get('dtype'),
-            trainable=kwargs.get('trainable', True))
+            **kwargs)
 
     def build(self, input_shape):
         super(LayerNormSimpleRNNCell, self).build(input_shape)

From dc22b6e85e1a6bf5a8412a26b0b196bd35e504c5 Mon Sep 17 00:00:00 2001
From: UH <554c46@gmail.com>
Date: Wed, 22 Jan 2020 14:24:59 +0100
Subject: [PATCH 28/28] a more pythonic dict loop

---
 tensorflow_addons/rnn/cell.py      | 10 ++++------
 tensorflow_addons/rnn/cell_test.py |  8 ++++++++
 2 files changed, 12 insertions(+), 6 deletions(-)

diff --git a/tensorflow_addons/rnn/cell.py b/tensorflow_addons/rnn/cell.py
index f05b46c9ba..e1aa4036c6 100644
--- a/tensorflow_addons/rnn/cell.py
+++ b/tensorflow_addons/rnn/cell.py
@@ -589,11 +589,9 @@ def get_config(self):
 
         ln_config = self.layernorm.get_config()
         ln_config = {
-            key: ln_config[key]
-            for key in [
-                "epsilon", "gamma_initializer", "gamma_regularizer",
-                "gamma_constraint"
-            ] if key in ln_config
-        }
+          k:v for k, v in ln_config.items()
+          if k in ["epsilon", "gamma_initializer",
+                   "gamma_regularizer", "gamma_constraint"]}
+
         ln_config['layernorm_epsilon'] = ln_config.pop("epsilon")
         return dict(list(cell_config.items()) + list(ln_config.items()))
diff --git a/tensorflow_addons/rnn/cell_test.py b/tensorflow_addons/rnn/cell_test.py
index 22c68d99ad..b71efb8fdc 100644
--- a/tensorflow_addons/rnn/cell_test.py
+++ b/tensorflow_addons/rnn/cell_test.py
@@ -344,6 +344,14 @@ def test_regularizers_layernorm_rnn(self):
             return_sequences=False)
         layer.build((None, None, 2))
         self.assertEqual(len(layer.losses), 4)
+    
+    def test_configs_layernorm(self):
+        config = {'layernorm_epsilon': 1e-6}
+        cell1 = LayerNormSimpleRNNCell(units=8, **config)
+        config1 = cell1.get_config()
+        cell2 = LayerNormSimpleRNNCell(**config1)
+        config2 = cell2.get_config()
+        assert config1 == config2
 
 
 if __name__ == "__main__":