using np for speed perturb, remove some debug log of grad clip

e61a6134 · Hui Zhang · b355b67f · e61a6134 · e61a6134 · e61a6134
4 changed file
--- a/.notebook/python_test.ipynb
+++ b/.notebook/python_test.ipynb
--- a/deepspeech/frontend/audio.py
+++ b/deepspeech/frontend/audio.py
@@ -22,7 +22,6 @@ import resampy
 from scipy import signal
 import random
 import copy
-import sox
 class AudioSegment(object):
@@ -322,18 +321,24 @@ class AudioSegment(object):
        :type speed_rate: float
        :raises ValueError: If speed_rate <= 0.0.
        """
+        if speed_rate == 1.0:
+            return
        if speed_rate <= 0:
            raise ValueError("speed_rate should be greater than zero.")
-        # old_length = self._samples.shape[0]
-        # new_length = int(old_length / speed_rate)
+        # numpy
-        # old_indices = np.arange(old_length)
+        old_length = self._samples.shape[0]
-        # new_indices = np.linspace(start=0, stop=old_length, num=new_length)
+        new_length = int(old_length / speed_rate)
-        # self._samples = np.interp(new_indices, old_indices, self._samples)
+        old_indices = np.arange(old_length)
-        tfm = sox.Transformer()
+        new_indices = np.linspace(start=0, stop=old_length, num=new_length)
-        tfm.set_globals(multithread=False)
+        self._samples = np.interp(new_indices, old_indices, self._samples)
-        tfm.speed(speed_rate)
-        self._samples = tfm.build_array(
+        # sox, slow
-            input_array=self._samples, sample_rate_in=self._sample_rate).copy()
+        # tfm = sox.Transformer()
+        # tfm.set_globals(multithread=False)
+        # tfm.speed(speed_rate)
+        # self._samples = tfm.build_array(
+        #     input_array=self._samples, sample_rate_in=self._sample_rate).copy()
    def normalize(self, target_db=-20, max_gain_db=300.0):
        """Normalize audio to be of the desired RMS value in decibels.

--- a/deepspeech/io/dataset.py
+++ b/deepspeech/io/dataset.py
@@ -12,6 +12,7 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
+import time
 import io
 import random
 import tarfile

--- a/deepspeech/training/gradclip.py
+++ b/deepspeech/training/gradclip.py
@@ -43,11 +43,11 @@ class ClipGradByGlobalNormWithLog(paddle.nn.ClipGradByGlobalNorm):
                merge_grad = layers.get_tensor_from_selected_rows(merge_grad)
            square = layers.square(merge_grad)
            sum_square = layers.reduce_sum(square)
-            logger.debug(
-                f"Grad Before Clip: {p.name}: {float(layers.sqrt(layers.reduce_sum(layers.square(merge_grad))) ) }"
-            )
            sum_square_list.append(sum_square)
+            # debug log
+            # logger.debug(f"Grad Before Clip: {p.name}: {float(sum_square.sqrt()) }")
        # all parameters have been filterd out
        if len(sum_square_list) == 0:
            return params_grads
@@ -55,6 +55,7 @@ class ClipGradByGlobalNormWithLog(paddle.nn.ClipGradByGlobalNorm):
        global_norm_var = layers.concat(sum_square_list)
        global_norm_var = layers.reduce_sum(global_norm_var)
        global_norm_var = layers.sqrt(global_norm_var)
+        # debug log
        logger.debug(f"Grad Global Norm: {float(global_norm_var)}!!!!")
        max_global_norm = layers.fill_constant(
            shape=[1], dtype=global_norm_var.dtype, value=self.clip_norm)
@@ -68,9 +69,11 @@ class ClipGradByGlobalNormWithLog(paddle.nn.ClipGradByGlobalNorm):
                params_and_grads.append((p, g))
                continue
            new_grad = layers.elementwise_mul(x=g, y=clip_var)
-            logger.debug(
-                f"Grad After Clip: {p.name}: {float(layers.sqrt(layers.reduce_sum(layers.square(merge_grad))) ) }"
-            )
            params_and_grads.append((p, new_grad))
+            # debug log
+            # logger.debug(
+            #     f"Grad After Clip: {p.name}: {float(merge_grad.square().sum().sqrt())}"
+            # )
        return params_and_grads