ROCm
diff --git a/‎.clang-tidy
Lines changed: 23 additions & 21 deletions b/‎.clang-tidy
Lines changed: 23 additions & 21 deletions
diff --git a/‎.jenkins/pytorch/test.sh
Lines changed: 1 addition & 0 deletions b/‎.jenkins/pytorch/test.sh
Lines changed: 1 addition & 0 deletions
diff --git a/‎aten/src/ATen/CPUApplyUtils.h
Lines changed: 8 additions & 5 deletions b/‎aten/src/ATen/CPUApplyUtils.h
Lines changed: 8 additions & 5 deletions
diff --git a/‎aten/src/ATen/Declarations.cwrap
Lines changed: 1 addition & 15 deletions b/‎aten/src/ATen/Declarations.cwrap
Lines changed: 1 addition & 15 deletions
diff --git a/‎aten/src/ATen/cpu/vec256/intrinsics.h
Lines changed: 3 additions & 3 deletions b/‎aten/src/ATen/cpu/vec256/intrinsics.h
Lines changed: 3 additions & 3 deletions
diff --git a/‎aten/src/ATen/cpu/vec256/vec256_base.h
Lines changed: 26 additions & 12 deletions b/‎aten/src/ATen/cpu/vec256/vec256_base.h
Lines changed: 26 additions & 12 deletions
diff --git a/‎aten/src/ATen/cpu/vec256/vec256_double.h
Lines changed: 10 additions & 1 deletion b/‎aten/src/ATen/cpu/vec256/vec256_double.h
Lines changed: 10 additions & 1 deletion
diff --git a/‎aten/src/ATen/cpu/vec256/vec256_float.h
Lines changed: 10 additions & 1 deletion b/‎aten/src/ATen/cpu/vec256/vec256_float.h
Lines changed: 10 additions & 1 deletion
@@ -3,36 +3,38 @@
 Checks: '
   *
   ,modernize-*
-  ,clang-analyzer-*
+  ,-cert-err58-cpp
+  ,-cert-err60-cpp
   ,-clang-diagnostic-*
-  ,-hicpp-no-array-decay
+  ,-cppcoreguidelines-owning-memory
+  ,-cppcoreguidelines-pro-bounds-array-to-pointer-decay
+  ,-cppcoreguidelines-pro-bounds-constant-array-index
+  ,-cppcoreguidelines-pro-type-static-cast-downcast
+  ,-cppcoreguidelines-pro-type-vararg
+  ,-cppcoreguidelines-special-member-functions
   ,-fuchsia-*
+  ,-google-build-using-namespace
+  ,-google-explicit-constructor
+  ,-google-readability-braces-around-statements
   ,-google-readability-namespace-comments
-  ,-llvm-namespace-comment
   ,-google-readability-todo
-  ,-cppcoreguidelines-pro-bounds-array-to-pointer-decay
-  ,-cert-err60-cpp
-  ,-llvm-header-guard
-  ,-cppcoreguidelines-special-member-functions
-  ,-misc-unused-parameters
+  ,-google-runtime-references
+  ,-google-runtime-references
   ,-hicpp-braces-around-statements
+  ,-hicpp-explicit-conversions
+  ,-hicpp-no-array-decay
   ,-hicpp-special-member-functions
-  ,-readability-braces-around-statements
-  ,-modernize-use-default-member-init
-  ,-google-runtime-references
-  ,-cppcoreguidelines-pro-type-vararg
-  ,-google-readability-braces-around-statements
-  ,-google-build-using-namespace
   ,-hicpp-vararg
-  ,-hicpp-explicit-conversions
-  ,-performance-unnecessary-value-param
-  ,-google-runtime-references
-  ,-cppcoreguidelines-pro-type-static-cast-downcast
-  ,-cppcoreguidelines-pro-bounds-constant-array-index
-  ,-cert-err58-cpp
+  ,-llvm-header-guard
+  ,-llvm-namespace-comment
+  ,-misc-unused-parameters
   ,-modernize-make-unique
-  ,-cppcoreguidelines-owning-memory
+  ,-modernize-use-default-member-init
+  ,-performance-unnecessary-value-param
+  ,-readability-braces-around-statements
+  ,-readability-else-after-return
   ,-readability-named-parameter
+  ,clang-analyzer-*
   '
 WarningsAsErrors: ''
 HeaderFilterRegex: 'torch/csrc/'
 
@@ -70,6 +70,7 @@ test_aten() {
     # put the dynamic libraries somewhere were the dynamic linker can find them.
     # This is a bit of a hack.
     ln -s "$TORCH_LIB_PATH"/libcaffe2* build/bin
+    ln -s "$TORCH_LIB_PATH"/libnccl* build/bin
     ls build/bin
     aten/tools/run_tests.sh build/bin
   fi
 
@@ -253,16 +253,15 @@ apply_op(int64_t numel, int64_t offset, const Op& op, Args... iters) {
   }
 }
 
+
 inline void apply_kernel(){};
 
+// TODO: Deal elegantly with 0-dim tensors. iters.strides_ of 0-dim
+// strided_tensor_iter will be of size 0 for dim 0 and iters.strides_[iters.dim_
+// - 1] will index at -1. C++14 integer_sequence could be of use here.
 template <typename Op, typename... Args>
 inline void
 apply_kernel(int64_t numel, int64_t offset, const Op& op, Args... iters) {
-  // For 0-dim tensors
-  if (numel == 1 && max_dim(iters...) == 0) {
-    op(1, iters.data_..., iters.strides_[iters.dim_ - 1]...);
-    return;
-  }
   if (offset > 0)
     forward(offset, iters...);
   int64_t size = std::min(numel, max_iterate_size(iters...));
@@ -284,6 +283,10 @@ inline void
 CPU_tensor_parallel_kernel_apply2(Tensor tensor1, Tensor tensor2, const Op op) {
   if (!_apply_preamble({tensor1, tensor2}))
     return;
+  if (tensor1.numel() == 1) {
+    op(1, tensor1.data<scalar1>(), tensor2.data<scalar2>(), 0, 0);
+    return;
+  }
   if (tensor1.ndimension() < 8 && tensor2.ndimension() < 8) {
     parallel_for(
         0,
 
@@ -1114,24 +1114,10 @@
     - THTensor* self
 ]]
 [[
-  name: sigmoid_
+  name: _th_sigmoid
   types:
     - floating_point
   backends:
-    - CPU
-    - CUDA
-  cname: sigmoid
-  return: self
-  arguments:
-    - THTensor* self
-    - THTensor* self
-]]
-[[
-  name: sigmoid
-  types:
-    - floating_point
-  backends:
-    - CPU
     - CUDA
   cname: sigmoid
   variants:
 
@@ -4,10 +4,10 @@
 /* Microsoft C/C++-compatible compiler */
 #include <intrin.h>
 #if _MSC_VER <= 1900
-#define _mm256_extract_epi64(X, Y) (_mm_extract_epi16(_mm256_extractf128_si256(X, Y >> 1), Y % 2))
-#define _mm256_extract_epi32(X, Y) (_mm_extract_epi16(_mm256_extractf128_si256(X, Y >> 2), Y % 4))
+#define _mm256_extract_epi64(X, Y) (_mm_extract_epi64(_mm256_extractf128_si256(X, Y >> 1), Y % 2))
+#define _mm256_extract_epi32(X, Y) (_mm_extract_epi32(_mm256_extractf128_si256(X, Y >> 2), Y % 4))
 #define _mm256_extract_epi16(X, Y) (_mm_extract_epi16(_mm256_extractf128_si256(X, Y >> 3), Y % 8))
-#define _mm256_extract_epi8(X, Y) (_mm_extract_epi16(_mm256_extractf128_si256(X, Y >> 4), Y % 16))
+#define _mm256_extract_epi8(X, Y) (_mm_extract_epi8(_mm256_extractf128_si256(X, Y >> 4), Y % 16))
 #endif
 #elif defined(__GNUC__) && (defined(__x86_64__) || defined(__i386__))
 /* GCC-compatible compiler, targeting x86/x86-64 */
 
@@ -23,8 +23,10 @@ namespace {
 // emulates vectorized types
 template <class T>
 struct Vec256 {
-  static constexpr int size = 32 / sizeof(T);
+private:
   T values[32 / sizeof(T)] = {0};
+public:
+  static constexpr int size = 32 / sizeof(T);
   Vec256() {}
   Vec256(T val) {
     for (int i = 0; i != size; i++) {
@@ -37,9 +39,9 @@ struct Vec256 {
     Vec256 vec;
     for (int64_t i = 0; i < size; i++) {
       if (mask & 0x01) {
-        vec.values[i] = b[i];
+        vec[i] = b[i];
       } else {
-        vec.values[i] = a[i];
+        vec[i] = a[i];
       }
       mask = mask >> 1;
     }
@@ -49,9 +51,9 @@ struct Vec256 {
     Vec256 vec;
     for (int64_t i = 0; i < size; i++) {
       if (i < count) {
-        vec.values[i] = b.values[i];
+        vec[i] = b[i];
       } else {
-        vec.values[i] = a.values[i];
+        vec[i] = a[i];
       }
     }
     return vec;
@@ -69,17 +71,23 @@ struct Vec256 {
   void store(void* ptr, int count = size) const {
     std::memcpy(ptr, values, count * sizeof(T));
   }
+  const T& operator[](int idx) const {
+    return values[idx];
+  }
+  T& operator[](int idx) {
+    return values[idx];
+  }
   Vec256<T> map(T (*f)(T)) const {
     Vec256<T> ret;
     for (int64_t i = 0; i != size; i++) {
-      ret.values[i] = f(values[i]);
+      ret[i] = f(values[i]);
     }
     return ret;
   }
   Vec256<T> abs() const {
     Vec256<T> ret;
     for (int64_t i = 0; i < size; i++) {
-      ret.values[i] = values[i] < 0 ? -values[i] : values[i];
+      ret[i] = values[i] < 0 ? -values[i] : values[i];
     }
     return ret;
   }
@@ -125,6 +133,9 @@ struct Vec256 {
   Vec256<T> floor() const {
     return map(std::floor);
   }
+  Vec256<T> neg() const {
+    return map([](T x) { return -x; });
+  }
   Vec256<T> round() const {
     return map(std::round);
   }
@@ -146,6 +157,9 @@ struct Vec256 {
   Vec256<T> sqrt() const {
     return map(std::sqrt);
   }
+  Vec256<T> reciprocal() const {
+    return map([](T x) { return (T)(1) / x; });
+  }
   Vec256<T> rsqrt() const {
     return map([](T x) { return 1 / std::sqrt(x); });
   }
@@ -154,39 +168,39 @@ struct Vec256 {
 template <class T> Vec256<T> operator+(const Vec256<T> &a, const Vec256<T> &b) {
   Vec256<T> c = Vec256<T>();
   for (int i = 0; i != Vec256<T>::size; i++) {
-    c.values[i] = a.values[i] + b.values[i];
+    c[i] = a[i] + b[i];
   }
   return c;
 }
 
 template <class T> Vec256<T> operator-(const Vec256<T> &a, const Vec256<T> &b) {
   Vec256<T> c = Vec256<T>();
   for (int i = 0; i != Vec256<T>::size; i++) {
-    c.values[i] = a.values[i] - b.values[i];
+    c[i] = a[i] - b[i];
   }
   return c;
 }
 
 template <class T> Vec256<T> operator*(const Vec256<T> &a, const Vec256<T> &b) {
   Vec256<T> c = Vec256<T>();
   for (int i = 0; i != Vec256<T>::size; i++) {
-    c.values[i] = a.values[i] * b.values[i];
+    c[i] = a[i] * b[i];
   }
   return c;
 }
 
 template <class T> Vec256<T> operator/(const Vec256<T> &a, const Vec256<T> &b) __ubsan_ignore_float_divide_by_zero__ {
   Vec256<T> c = Vec256<T>();
   for (int i = 0; i != Vec256<T>::size; i++) {
-    c.values[i] = a.values[i] / b.values[i];
+    c[i] = a[i] / b[i];
   }
   return c;
 }
 
 template <class T> Vec256<T> max(const Vec256<T> &a, const Vec256<T> &b) {
   Vec256<T> c = Vec256<T>();
   for (int i = 0; i != Vec256<T>::size; i++) {
-    c.values[i] = std::max(a.values[i], b.values[i]);
+    c[i] = std::max(a[i], b[i]);
   }
   return c;
 }
 
@@ -13,9 +13,10 @@ namespace {
 #if defined(__AVX__) && !defined(_MSC_VER)
 
 template <> class Vec256<double> {
+private:
+  __m256d values;
 public:
   static constexpr int size = 4;
-  __m256d values;
   Vec256() {}
   Vec256(__m256d v) : values(v) {}
   Vec256(double val) {
@@ -61,6 +62,8 @@ template <> class Vec256<double> {
       std::memcpy(ptr, tmp_values, count * sizeof(double));
     }
   }
+  const double& operator[](int idx) const  = delete;
+  double& operator[](int idx) = delete;
   Vec256<double> map(double (*f)(double)) const {
     __at_align32__ double tmp[4];
     store(tmp);
@@ -121,6 +124,9 @@ template <> class Vec256<double> {
   Vec256<double> floor() const {
     return _mm256_floor_pd(values);
   }
+  Vec256<double> neg() const {
+    return _mm256_xor_pd(_mm256_set1_pd(-0.), values);
+  }
   Vec256<double> round() const {
     return _mm256_round_pd(values, (_MM_FROUND_TO_NEAREST_INT | _MM_FROUND_NO_EXC));
   }
@@ -136,6 +142,9 @@ template <> class Vec256<double> {
   Vec256<double> sqrt() const {
     return _mm256_sqrt_pd(values);
   }
+  Vec256<double> reciprocal() const {
+    return _mm256_div_pd(_mm256_set1_pd(1), values);
+  }
   Vec256<double> rsqrt() const {
     return _mm256_div_pd(_mm256_set1_pd(1), _mm256_sqrt_pd(values));
   }
 
@@ -13,9 +13,10 @@ namespace {
 #if defined(__AVX__) && !defined(_MSC_VER)
 
 template <> class Vec256<float> {
+private:
+  __m256 values;
 public:
   static constexpr int64_t size = 8;
-  __m256 values;
   Vec256() {}
   Vec256(__m256 v) : values(v) {}
   Vec256(float val) {
@@ -66,6 +67,8 @@ template <> class Vec256<float> {
       std::memcpy(ptr, tmp_values, count * sizeof(float));
     }
   }
+  const float& operator[](int idx) const  = delete;
+  float& operator[](int idx) = delete;
   Vec256<float> map(float (*f)(float)) const {
     __at_align32__ float tmp[8];
     store(tmp);
@@ -126,6 +129,9 @@ template <> class Vec256<float> {
   Vec256<float> floor() const {
     return _mm256_floor_ps(values);
   }
+  Vec256<float> neg() const {
+    return _mm256_xor_ps(_mm256_set1_ps(-0.f), values);
+  }
   Vec256<float> round() const {
     return _mm256_round_ps(values, (_MM_FROUND_TO_NEAREST_INT | _MM_FROUND_NO_EXC));
   }
@@ -141,6 +147,9 @@ template <> class Vec256<float> {
   Vec256<float> sqrt() const {
     return _mm256_sqrt_ps(values);
   }
+  Vec256<float> reciprocal() const {
+    return _mm256_div_ps(_mm256_set1_ps(1), values);
+  }
   Vec256<float> rsqrt() const {
     return _mm256_div_ps(_mm256_set1_ps(1), _mm256_sqrt_ps(values));
   }
Original file line number	Diff line number	Diff line change
`@@ -23,8 +23,10 @@ namespace {`
`23`	`23`	`// emulates vectorized types`
`24`	`24`	`template <class T>`
`25`	`25`	`struct Vec256 {`
`26`		`- static constexpr int size = 32 / sizeof(T);`
	`26`	`+private:`
`27`	`27`	`T values[32 / sizeof(T)] = {0};`
	`28`	`+public:`
	`29`	`+ static constexpr int size = 32 / sizeof(T);`
`28`	`30`	`Vec256() {}`
`29`	`31`	`Vec256(T val) {`
`30`	`32`	`for (int i = 0; i != size; i++) {`
`@@ -37,9 +39,9 @@ struct Vec256 {`
`37`	`39`	`Vec256 vec;`
`38`	`40`	`for (int64_t i = 0; i < size; i++) {`
`39`	`41`	`if (mask & 0x01) {`
`40`		`- vec.values[i] = b[i];`
	`42`	`+ vec[i] = b[i];`
`41`	`43`	`} else {`
`42`		`- vec.values[i] = a[i];`
	`44`	`+ vec[i] = a[i];`
`43`	`45`	`}`
`44`	`46`	`mask = mask >> 1;`
`45`	`47`	`}`
`@@ -49,9 +51,9 @@ struct Vec256 {`
`49`	`51`	`Vec256 vec;`
`50`	`52`	`for (int64_t i = 0; i < size; i++) {`
`51`	`53`	`if (i < count) {`
`52`		`- vec.values[i] = b.values[i];`
	`54`	`+ vec[i] = b[i];`
`53`	`55`	`} else {`
`54`		`- vec.values[i] = a.values[i];`
	`56`	`+ vec[i] = a[i];`
`55`	`57`	`}`
`56`	`58`	`}`
`57`	`59`	`return vec;`
`@@ -69,17 +71,23 @@ struct Vec256 {`
`69`	`71`	`void store(void* ptr, int count = size) const {`
`70`	`72`	`std::memcpy(ptr, values, count * sizeof(T));`
`71`	`73`	`}`
	`74`	`+ const T& operator[](int idx) const {`
	`75`	`+ return values[idx];`
	`76`	`+ }`
	`77`	`+ T& operator[](int idx) {`
	`78`	`+ return values[idx];`
	`79`	`+ }`
`72`	`80`	`Vec256<T> map(T (*f)(T)) const {`
`73`	`81`	`Vec256<T> ret;`
`74`	`82`	`for (int64_t i = 0; i != size; i++) {`
`75`		`- ret.values[i] = f(values[i]);`
	`83`	`+ ret[i] = f(values[i]);`
`76`	`84`	`}`
`77`	`85`	`return ret;`
`78`	`86`	`}`
`79`	`87`	`Vec256<T> abs() const {`
`80`	`88`	`Vec256<T> ret;`
`81`	`89`	`for (int64_t i = 0; i < size; i++) {`
`82`		`- ret.values[i] = values[i] < 0 ? -values[i] : values[i];`
	`90`	`+ ret[i] = values[i] < 0 ? -values[i] : values[i];`
`83`	`91`	`}`
`84`	`92`	`return ret;`
`85`	`93`	`}`
`@@ -125,6 +133,9 @@ struct Vec256 {`
`125`	`133`	`Vec256<T> floor() const {`
`126`	`134`	`return map(std::floor);`
`127`	`135`	`}`
	`136`	`+ Vec256<T> neg() const {`
	`137`	`+ return map([](T x) { return -x; });`
	`138`	`+ }`
`128`	`139`	`Vec256<T> round() const {`
`129`	`140`	`return map(std::round);`
`130`	`141`	`}`
`@@ -146,6 +157,9 @@ struct Vec256 {`
`146`	`157`	`Vec256<T> sqrt() const {`
`147`	`158`	`return map(std::sqrt);`
`148`	`159`	`}`
	`160`	`+ Vec256<T> reciprocal() const {`
	`161`	`+ return map([](T x) { return (T)(1) / x; });`
	`162`	`+ }`
`149`	`163`	`Vec256<T> rsqrt() const {`
`150`	`164`	`return map([](T x) { return 1 / std::sqrt(x); });`
`151`	`165`	`}`
`@@ -154,39 +168,39 @@ struct Vec256 {`
`154`	`168`	`template <class T> Vec256<T> operator+(const Vec256<T> &a, const Vec256<T> &b) {`
`155`	`169`	`Vec256<T> c = Vec256<T>();`
`156`	`170`	`for (int i = 0; i != Vec256<T>::size; i++) {`
`157`		`- c.values[i] = a.values[i] + b.values[i];`
	`171`	`+ c[i] = a[i] + b[i];`
`158`	`172`	`}`
`159`	`173`	`return c;`
`160`	`174`	`}`
`161`	`175`
`162`	`176`	`template <class T> Vec256<T> operator-(const Vec256<T> &a, const Vec256<T> &b) {`
`163`	`177`	`Vec256<T> c = Vec256<T>();`
`164`	`178`	`for (int i = 0; i != Vec256<T>::size; i++) {`
`165`		`- c.values[i] = a.values[i] - b.values[i];`
	`179`	`+ c[i] = a[i] - b[i];`
`166`	`180`	`}`
`167`	`181`	`return c;`
`168`	`182`	`}`
`169`	`183`
`170`	`184`	`template <class T> Vec256<T> operator*(const Vec256<T> &a, const Vec256<T> &b) {`
`171`	`185`	`Vec256<T> c = Vec256<T>();`
`172`	`186`	`for (int i = 0; i != Vec256<T>::size; i++) {`
`173`		`- c.values[i] = a.values[i] * b.values[i];`
	`187`	`+ c[i] = a[i] * b[i];`
`174`	`188`	`}`
`175`	`189`	`return c;`
`176`	`190`	`}`
`177`	`191`
`178`	`192`	`template <class T> Vec256<T> operator/(const Vec256<T> &a, const Vec256<T> &b) __ubsan_ignore_float_divide_by_zero__ {`
`179`	`193`	`Vec256<T> c = Vec256<T>();`
`180`	`194`	`for (int i = 0; i != Vec256<T>::size; i++) {`
`181`		`- c.values[i] = a.values[i] / b.values[i];`
	`195`	`+ c[i] = a[i] / b[i];`
`182`	`196`	`}`
`183`	`197`	`return c;`
`184`	`198`	`}`
`185`	`199`
`186`	`200`	`template <class T> Vec256<T> max(const Vec256<T> &a, const Vec256<T> &b) {`
`187`	`201`	`Vec256<T> c = Vec256<T>();`
`188`	`202`	`for (int i = 0; i != Vec256<T>::size; i++) {`
`189`		`- c.values[i] = std::max(a.values[i], b.values[i]);`
	`203`	`+ c[i] = std::max(a[i], b[i]);`
`190`	`204`	`}`
`191`	`205`	`return c;`
`192`	`206`	`}`