Theano
diff --git a/‎src/gpuarray/blas.h‎
Lines changed: 1 addition & 0 deletions b/‎src/gpuarray/blas.h‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎src/gpuarray/buffer_blas.h‎
Lines changed: 24 additions & 0 deletions b/‎src/gpuarray/buffer_blas.h‎
Lines changed: 24 additions & 0 deletions
diff --git a/‎src/gpuarray/util.h‎
Lines changed: 84 additions & 0 deletions b/‎src/gpuarray/util.h‎
Lines changed: 84 additions & 0 deletions
diff --git a/‎src/gpuarray_array_blas.c‎
Lines changed: 75 additions & 38 deletions b/‎src/gpuarray_array_blas.c‎
Lines changed: 75 additions & 38 deletions
@@ -34,6 +34,7 @@ GPUARRAY_PUBLIC int GpuArray_rger(double alpha, GpuArray *X, GpuArray *Y,
 GPUARRAY_PUBLIC int GpuArray_rgemmBatch_3d(cb_transpose transA, cb_transpose transB,
                                            double alpha, GpuArray *A, GpuArray *B,
                                            double beta, GpuArray *C, int nocopy);
+#define GpuArray_hgemmBatch_3d GpuArray_rgemmBatch_3d
 #define GpuArray_sgemmBatch_3d GpuArray_rgemmBatch_3d
 #define GpuArray_dgemmBatch_3d GpuArray_rgemmBatch_3d
 
 
@@ -115,6 +115,30 @@ GPUARRAY_PUBLIC int gpublas_hgemmBatch(
   float beta, gpudata **C, size_t *offC, size_t ldc,
   size_t batchCount, int flags);
 
+GPUARRAY_PUBLIC int gpublas_hgemm3D(
+  cb_order order, cb_transpose transA, cb_transpose transB,
+  size_t M, size_t N, size_t K, float alpha,
+  gpudata *A, size_t offA, size_t lda, ssize_t strideA,
+  gpudata *B, size_t offB, size_t ldb, ssize_t strideB,
+  float beta, gpudata *C, size_t offC, size_t ldc, ssize_t strideC,
+  size_t batchCount, int flags);
+
+GPUARRAY_PUBLIC int gpublas_sgemm3D(
+  cb_order order, cb_transpose transA, cb_transpose transB,
+  size_t M, size_t N, size_t K, float alpha,
+  gpudata *A, size_t offA, size_t lda, ssize_t strideA,
+  gpudata *B, size_t offB, size_t ldb, ssize_t strideB,
+  float beta, gpudata *C, size_t offC, size_t ldc, ssize_t strideC,
+  size_t batchCount, int flags);
+
+GPUARRAY_PUBLIC int gpublas_dgemm3D(
+  cb_order order, cb_transpose transA, cb_transpose transB,
+  size_t M, size_t N, size_t K, double alpha,
+  gpudata *A, size_t offA, size_t lda, ssize_t strideA,
+  gpudata *B, size_t offB, size_t ldb, ssize_t strideB,
+  double beta, gpudata *C, size_t offC, size_t ldc, ssize_t strideC,
+  size_t batchCount, int flags);
+
 GPUARRAY_PUBLIC int gpublas_sgemmBatch(
   cb_order order, cb_transpose transA, cb_transpose transB,
   size_t M, size_t N, size_t K, float alpha,
 
@@ -98,6 +98,90 @@ GPUARRAY_PUBLIC void gpuarray_elemwise_collapse(unsigned int n,
                                                 unsigned int *nd,
                                                 size_t *dim, ssize_t **strs);
 
+
+typedef struct _ga_half_t { uint16_t h; } ga_half_t;
+
+/* code strongly inspired from
+   https://github.com/numpy/numpy/blob/master/numpy/core/src/npymath/halffloat.c#L246 */
+
+static inline ga_half_t ga_float2half(float f) {
+  union {
+    float f;
+    uint32_t bits;
+  } bf;
+  union {
+    ga_half_t h;
+    uint16_t bits;
+  } bh;
+
+  uint32_t f_exp, f_sig;
+  uint16_t h_sgn, h_exp, h_sig;
+
+  bf.f = f;
+
+  h_sgn = (bf.bits&0x80000000u) >> 16;
+  f_exp = (bf.bits&0x7f800000u);
+
+  /* Exponent overflow/NaN converts to signed inf/NaN */
+  if (f_exp >= 0x47800000u) {
+    if (f_exp == 0x7f800000u) {
+      /* Inf or NaN */
+      f_sig = (bf.bits&0x007fffffu);
+      if (f_sig != 0) {
+	/* NaN - propagate the flag in the significand... */
+	bh.bits = (uint16_t) (0x7c00u + (f_sig >> 13));
+	/* ...but make sure it stays a NaN */
+	if (bh.bits == 0x7c00u) {
+	  bh.bits++;
+	}
+	bh.bits += h_sgn;
+	return bh.h;
+      } else {
+	/* signed inf */
+	bh.bits = h_sgn + 0x7c00u;
+	return bh.h;
+      }
+    } else {
+      bh.bits = h_sgn + 0x7c00u;
+      return bh.h;
+    }
+  }
+
+  if (f_exp <= 0x38000000u) {
+    /*
+     * Signed zeros, subnormal floats, and floats with small
+     * exponents all convert to signed zero halfs.
+     */
+    if (f_exp < 0x33000000u) {
+      bh.bits = h_sgn;
+      return bh.h;
+    }
+    /* Make the subnormal significand */
+    f_exp >>= 23;
+    f_sig = (0x00800000u + (bf.bits&0x007fffffu));
+    f_sig >>= (113 - f_exp);
+    /* Handle rounding by adding 1 to the bit beyond half precision */
+    f_sig += 0x00001000u;
+    h_sig = (uint16_t) (f_sig >> 13);
+    /*
+     * If the rounding causes a bit to spill into h_exp, it will
+     * increment h_exp from zero to one and h_sig will be zero.
+     * This is the correct result.
+     */
+    bh.bits = h_sgn + h_sig;
+    return bh.h;
+  }
+
+  /* Regular case with no overflow or underflow */
+  h_exp = (uint16_t) ((f_exp - 0x38000000u) >> 13);
+  /* Handle rounding by adding 1 to the bit beyond half precision */
+  f_sig = (bf.bits&0x007fffffu);
+  f_sig += 0x00001000u;
+  h_sig = (uint16_t) (f_sig >> 13);
+  bh.bits = h_sgn + h_exp + h_sig;
+  return bh.h;
+}
+
 #ifdef __cplusplus
 }
 #endif
 
@@ -482,11 +482,8 @@ int GpuArray_rgemmBatch_3d(cb_transpose transA, cb_transpose transB, double alph
   cb_order o;
   int cA, cB, cC;
   int err;
-  gpudata **A_datas = NULL, **B_datas = NULL, **C_datas = NULL;
-  size_t *A_offsets = NULL, *B_offsets = NULL, *C_offsets = NULL;
-  size_t i;
 
-  if (A->typecode != GA_FLOAT && A->typecode != GA_DOUBLE)
+  if (A->typecode != GA_FLOAT && A->typecode != GA_DOUBLE && A->typecode != GA_HALF)
     return error_set(ctx->err, GA_INVALID_ERROR, "Unsupported dtype");
 
   if (A->nd != 3 || B->nd != 3 || C->nd != 3)
@@ -625,50 +622,90 @@ int GpuArray_rgemmBatch_3d(cb_transpose transA, cb_transpose transB, double alph
   if (err != GA_NO_ERROR)
     goto cleanup;
 
-  A_datas = (gpudata**)malloc(batchCount * sizeof(gpudata*));
-  B_datas = (gpudata**)malloc(batchCount * sizeof(gpudata*));
-  C_datas = (gpudata**)malloc(batchCount * sizeof(gpudata*));
-
-  A_offsets = (size_t*)malloc(batchCount * sizeof(size_t));
-  B_offsets = (size_t*)malloc(batchCount * sizeof(size_t));
-  C_offsets = (size_t*)malloc(batchCount * sizeof(size_t));
-
-  for (i = 0; i < batchCount; i++) {
-    A_datas[i] = Ap->data;
-    B_datas[i] = Bp->data;
-    C_datas[i] = Cp->data;
-    A_offsets[i] = (Ap->offset + i * Ap->strides[0]) / elsize;
-    B_offsets[i] = (Bp->offset + i * Bp->strides[0]) / elsize;
-    C_offsets[i] = (Cp->offset + i * Cp->strides[0]) / elsize;
-  }
-
   switch (C->typecode) {
   case GA_HALF:
-    err = gpublas_hgemmBatch(o, transA, transB, m, n, k, (float)alpha,
-                             A_datas, A_offsets, lda,
-                             B_datas, B_offsets, ldb,
-                             (float)beta,
-                             C_datas, C_offsets, ldc, batchCount, 0);
+    err = gpublas_hgemm3D(o, transA, transB, m, n, k, (float)alpha,
+                          Ap->data, Ap->offset/elsize, lda, Ap->strides[0]/elsize,
+                          Bp->data, Bp->offset/elsize, ldb, Bp->strides[0]/elsize,
+                          (float)beta,
+                          Cp->data, Cp->offset/elsize, ldc, Cp->strides[0]/elsize,
+                          batchCount, 0);
     break;
   case GA_FLOAT:
-    err = gpublas_sgemmBatch(o, transA, transB, m, n, k, (float)alpha,
-                             A_datas, A_offsets, lda,
-                             B_datas, B_offsets, ldb,
-                             (float)beta,
-                             C_datas, C_offsets, ldc, batchCount, 0);
+    err = gpublas_sgemm3D(o, transA, transB, m, n, k, (float)alpha,
+                          Ap->data, Ap->offset/elsize, lda, Ap->strides[0]/elsize,
+                          Bp->data, Bp->offset/elsize, ldb, Bp->strides[0]/elsize,
+                          (float)beta,
+                          Cp->data, Cp->offset/elsize, ldc, Cp->strides[0]/elsize,
+                          batchCount, 0);
     break;
   case GA_DOUBLE:
-    err = gpublas_dgemmBatch(o, transA, transB, m, n, k, (double)alpha,
-                             A_datas, A_offsets, lda,
-                             B_datas, B_offsets, ldb,
-                             (double)beta,
-                             C_datas, C_offsets, ldc, batchCount, 0);
+    err = gpublas_dgemm3D(o, transA, transB, m, n, k, (double)alpha,
+                          Ap->data, Ap->offset/elsize, lda, Ap->strides[0]/elsize,
+                          Bp->data, Bp->offset/elsize, ldb, Bp->strides[0]/elsize,
+                          (double)beta,
+                          Cp->data, Cp->offset/elsize, ldc, Cp->strides[0]/elsize,
+                          batchCount, 0);
     break;
   }
 
+  if (err == GA_DEVSUP_ERROR) {
+    gpudata **A_datas = NULL, **B_datas = NULL, **C_datas = NULL;
+    size_t *A_offsets = NULL, *B_offsets = NULL, *C_offsets = NULL;
+    size_t i;
+
+    A_datas = (gpudata**)malloc(batchCount * sizeof(gpudata*));
+    B_datas = (gpudata**)malloc(batchCount * sizeof(gpudata*));
+    C_datas = (gpudata**)malloc(batchCount * sizeof(gpudata*));
+
+    A_offsets = (size_t*)malloc(batchCount * sizeof(size_t));
+    B_offsets = (size_t*)malloc(batchCount * sizeof(size_t));
+    C_offsets = (size_t*)malloc(batchCount * sizeof(size_t));
+
+    if (A_datas == NULL || B_datas == NULL || C_datas == NULL ||
+        A_offsets == NULL || B_offsets == NULL || C_offsets) {
+      err = error_sys(ctx->err, "malloc");
+      goto old_cleanup;
+    }
+
+    for (i = 0; i < batchCount; i++) {
+      A_datas[i] = Ap->data;
+      B_datas[i] = Bp->data;
+      C_datas[i] = Cp->data;
+      A_offsets[i] = (Ap->offset + i * Ap->strides[0]) / elsize;
+      B_offsets[i] = (Bp->offset + i * Bp->strides[0]) / elsize;
+      C_offsets[i] = (Cp->offset + i * Cp->strides[0]) / elsize;
+    }
+
+    switch (C->typecode) {
+      case GA_HALF:
+        err = gpublas_hgemmBatch(o, transA, transB, m, n, k, (float)alpha,
+                                 A_datas, A_offsets, lda,
+                                 B_datas, B_offsets, ldb,
+                                 (float)beta,
+                                 C_datas, C_offsets, ldc, batchCount, 0);
+        break;
+      case GA_FLOAT:
+        err = gpublas_sgemmBatch(o, transA, transB, m, n, k, (float)alpha,
+                                 A_datas, A_offsets, lda,
+                                 B_datas, B_offsets, ldb,
+                                 (float)beta,
+                                 C_datas, C_offsets, ldc, batchCount, 0);
+        break;
+      case GA_DOUBLE:
+        err = gpublas_dgemmBatch(o, transA, transB, m, n, k, (double)alpha,
+                                 A_datas, A_offsets, lda,
+                                 B_datas, B_offsets, ldb,
+                                 (double)beta,
+                                 C_datas, C_offsets, ldc, batchCount, 0);
+        break;
+    }
+  old_cleanup:
+    free(A_datas); free(B_datas); free(C_datas);
+    free(A_offsets); free(B_offsets); free(C_offsets);
+  }
+
   cleanup:
-  free(A_datas); free(B_datas); free(C_datas);
-  free(A_offsets); free(B_offsets); free(C_offsets);
   if (Ap == &copyA)
     GpuArray_clear(&copyA);
   if (Bp == &copyB)