csarofeen
diff --git a/‎third_party/nvfuser/benchmark/bert.cpp‎
Lines changed: 3 additions & 3 deletions b/‎third_party/nvfuser/benchmark/bert.cpp‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎third_party/nvfuser/benchmark/layer_norm_backward.cpp‎
Lines changed: 2 additions & 2 deletions b/‎third_party/nvfuser/benchmark/layer_norm_backward.cpp‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎third_party/nvfuser/benchmark/rms_norm_backward.cpp‎
Lines changed: 1 addition & 1 deletion b/‎third_party/nvfuser/benchmark/rms_norm_backward.cpp‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎third_party/nvfuser/benchmark/scale_bias_relu.cpp‎
Lines changed: 2 additions & 4 deletions b/‎third_party/nvfuser/benchmark/scale_bias_relu.cpp‎
Lines changed: 2 additions & 4 deletions
diff --git a/‎third_party/nvfuser/benchmark/timm.cpp‎
Lines changed: 4 additions & 4 deletions b/‎third_party/nvfuser/benchmark/timm.cpp‎
Lines changed: 4 additions & 4 deletions
diff --git a/‎third_party/nvfuser/benchmark/utils.cpp‎
Lines changed: 2 additions & 17 deletions b/‎third_party/nvfuser/benchmark/utils.cpp‎
Lines changed: 2 additions & 17 deletions
diff --git a/‎third_party/nvfuser/csrc/contiguity.cpp‎
Lines changed: 8 additions & 11 deletions b/‎third_party/nvfuser/csrc/contiguity.cpp‎
Lines changed: 8 additions & 11 deletions
diff --git a/‎third_party/nvfuser/csrc/contiguity.h‎
Lines changed: 3 additions & 3 deletions b/‎third_party/nvfuser/csrc/contiguity.h‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎third_party/nvfuser/csrc/executor_kernel_arg.h‎
Lines changed: 1 addition & 0 deletions b/‎third_party/nvfuser/csrc/executor_kernel_arg.h‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎third_party/nvfuser/csrc/fusion_segmenter.cpp‎
Lines changed: 1 addition & 1 deletion b/‎third_party/nvfuser/csrc/fusion_segmenter.cpp‎
Lines changed: 1 addition & 1 deletion
@@ -349,13 +349,13 @@ static void setupBiasDropoutAddLayernormBwd1(Fusion* fusion, DataType dtype) {
   TensorView* tv3 = TensorViewBuilder()
                         .ndims(3)
                         .dtype(dtype)
-                        .contiguity({true, true})
+                        .contiguity({true, true, c10::nullopt})
                         .shape({-1, -1, 1})
                         .build();
   TensorView* tv4 = TensorViewBuilder()
                         .ndims(3)
                         .dtype(dtype)
-                        .contiguity({true, true})
+                        .contiguity({true, true, c10::nullopt})
                         .shape({-1, -1, 1})
                         .build();
 
@@ -457,7 +457,7 @@ static void setupBiasDropoutAddLayernormBwd2(Fusion* fusion, DataType dtype) {
   TensorView* tv4 = TensorViewBuilder()
                         .ndims(3)
                         .dtype(dtype)
-                        .contiguity({true, true})
+                        .contiguity({true, true, c10::nullopt})
                         .shape({-1, -1, 1})
                         .build();
   TensorView* tv5 = makeContigTensor(1, dtype);
 
@@ -27,12 +27,12 @@ static void setupLayerNorm_BWD(Fusion* fusion, DataType dtype) {
   auto bias = makeContigTensor(1, dtype);
 
   auto mean = TensorViewBuilder()
-                  .contiguity({false})
+                  .contiguity({false, c10::nullopt})
                   .shape({-1, 1})
                   .dtype(DataType::Float)
                   .build();
   auto rstd = TensorViewBuilder()
-                  .contiguity({false})
+                  .contiguity({false, c10::nullopt})
                   .shape({-1, 1})
                   .dtype(DataType::Float)
                   .build();
 
@@ -27,7 +27,7 @@ static void setupRMSNorm_BWD(Fusion* fusion, DataType dtype) {
   auto input = makeContigTensor(3, dtype);
   auto weight = makeContigTensor(1, dtype);
   auto rstd = TensorViewBuilder()
-                  .contiguity({false, false})
+                  .contiguity({false, false, c10::nullopt})
                   .shape({-1, -1, 1})
                   .dtype(dtype)
                   .build();
 
@@ -20,19 +20,17 @@ static void setupSBR(Fusion* fusion, DataType dtype) {
   std::vector<int64_t> bcast_shape(kNumberOfDims, 1);
   bcast_shape[bcast_shape.size() - 1] = -1;
 
-  std::vector<bool> bcast_contig(1, true);
-
   auto x = makeContigTensor(kNumberOfDims, dtype);
 
   auto scale = TensorViewBuilder()
-                   .contiguity(bcast_contig)
                    .shape(bcast_shape)
+                   .contiguity(true)
                    .dtype(dtype)
                    .build();
 
   auto bias = TensorViewBuilder()
-                  .contiguity(bcast_contig)
                   .shape(bcast_shape)
+                  .contiguity(true)
                   .dtype(dtype)
                   .build();
 
 
@@ -16,12 +16,12 @@ static void setup_vit_base_patch16_224_bcast7(Fusion* fusion, void* null) {
   auto t3 = TensorViewBuilder()
                 .shape({-1, -1, 1})
                 .dtype(DataType::Float)
-                .contiguity({true, true})
+                .contiguity({true, true, c10::nullopt})
                 .build();
   auto t4 = TensorViewBuilder()
                 .shape({-1, -1, 1})
                 .dtype(DataType::Float)
-                .contiguity({true, true})
+                .contiguity({true, true, c10::nullopt})
                 .build();
   auto t7 = makeContigTensor(3, DataType::Half);
 
@@ -538,14 +538,14 @@ static void setup_vit_base_patch16_224_LN_BWD(Fusion* fusion, void* null) {
   auto t5 = TensorViewBuilder()
                 .shape({-1, -1, 1})
                 .dtype(DataType::Float)
-                .contiguity({true, true})
+                .contiguity({true, true, c10::nullopt})
                 .build();
   fusion->addInput(t5);
 
   auto t6 = TensorViewBuilder()
                 .shape({-1, -1, 1})
                 .dtype(DataType::Float)
-                .contiguity({true, true})
+                .contiguity({true, true, c10::nullopt})
                 .build();
   fusion->addInput(t6);
 
 
@@ -145,11 +145,7 @@ TensorView* makeSymbolicTensor(size_t ndims, DataType dtype) {
 }
 
 TensorView* makeContigTensor(size_t ndims, DataType dtype) {
-  return TensorViewBuilder()
-      .ndims(ndims)
-      .dtype(dtype)
-      .contiguity(std::vector<bool>(ndims, true))
-      .build();
+  return TensorViewBuilder().ndims(ndims).dtype(dtype).contiguity(true).build();
 }
 
 TensorView* makeConcreteTensor(std::vector<int64_t> shape, DataType dtype) {
@@ -159,18 +155,7 @@ TensorView* makeConcreteTensor(std::vector<int64_t> shape, DataType dtype) {
 TensorView* makeContigConcreteTensor(
     std::vector<int64_t> shape,
     DataType dtype) {
-  std::vector<bool> contiguity;
-  for (auto s : shape) {
-    if (s == 1) {
-      continue;
-    }
-    contiguity.push_back(true);
-  }
-  return TensorViewBuilder()
-      .shape(shape)
-      .dtype(dtype)
-      .contiguity(contiguity)
-      .build();
+  return TensorViewBuilder().shape(shape).dtype(dtype).contiguity(true).build();
 }
 
 void runBenchmarkIterations(
 
@@ -386,7 +386,7 @@ NonDivisibleSplitDependencies::NonDivisibleSplitDependencies(
 ContigIDs::ContigIDs(
     const std::vector<IterDomain*>& ids,
     const std::vector<IterDomain*>& root_domain,
-    const std::vector<bool>& root_contiguity,
+    const std::vector<c10::optional<bool>>& root_contiguity,
     const std::unordered_set<IterDomain*>& final_ids,
     const std::unordered_map<IterDomain*, Val*>& index_map,
     const std::unordered_set<Split*>& divisible_splits,
@@ -419,7 +419,7 @@ ContigIDs::ContigIDs(
 ContigIDs::ContigIDs(
     const std::vector<IterDomain*>& ids,
     const std::vector<IterDomain*>& root_domain,
-    const std::vector<bool>& root_contiguity,
+    const std::vector<c10::optional<bool>>& root_contiguity,
     const std::unordered_set<IterDomain*>& final_ids,
     const std::unordered_map<IterDomain*, Val*>& index_map,
     const std::unordered_set<Split*>& divisible_splits,
@@ -458,17 +458,16 @@ void ContigIDs::build(const std::vector<IterDomain*>& ids) {
   }
 
   TORCH_INTERNAL_ASSERT(
-      TensorDomain::noBroadcasts(root_domain_).size() ==
-          root_contiguity_.size(),
+      root_domain_.size() == root_contiguity_.size(),
       "Arguments don't match ",
-      TensorDomain::noBroadcasts(root_domain_).size(),
+      root_domain_.size(),
       " != ",
       root_contiguity_.size());
 
-  int no_broadcast_i = 0;
   for (const auto root_domain_i : c10::irange(root_domain_.size())) {
     auto root_domain_id = root_domain_.at(root_domain_i)->as<IterDomain>();
     if (root_domain_id->isBroadcast()) {
+      TORCH_INTERNAL_ASSERT(!root_contiguity_.at(root_domain_i).has_value());
       continue;
     }
     root_to_indexed_id_[root_domain_id] = root_domain_id;
@@ -479,14 +478,13 @@ void ContigIDs::build(const std::vector<IterDomain*>& ids) {
     // rfactor root domains, which should just return "zero"
     // RootAxisInfo. This should be safe as no rfactor tensor should
     // need halo.
-    if (root_contiguity_.at(no_broadcast_i) &&
+    if (*root_contiguity_.at(root_domain_i) &&
         !halo_info_->getRootAxisInfo(root_domain_id).hasHalo() &&
         root_domain_id->getIterType() != IterType::GatherScatter) {
       contig_ids_.emplace(root_domain_id);
       is_contig_root_.at(root_domain_id) = true;
       within_contig_ids_[root_domain_id] = std::unordered_set<IterDomain*>();
     }
-    no_broadcast_i++;
   }
 
   if (!contig_ids_.empty()) {
@@ -540,10 +538,10 @@ void ContigIDs::handle(Merge* merge) {
   bool is_indexing_pass = !ignore_consistent_ordering_;
 
   IterDomain* last_root = nullptr;
-  int no_broadcast_i = 0;
   for (auto root_id_i : c10::irange(root_domain_.size())) {
     auto root_id = root_domain_[root_id_i];
     if (root_id->isBroadcast()) {
+      TORCH_INTERNAL_ASSERT(!root_contiguity_.at(root_id_i).has_value());
       continue;
     }
     if (root_ids.has(root_id)) {
@@ -556,14 +554,13 @@ void ContigIDs::handle(Merge* merge) {
       // If we're computing predicates (ignore_consistent_ordering_==true),
       // then we don't have this same constraint, we can just ignore
       // contiguity of the roots all together.
-      if (!root_contiguity_.at(no_broadcast_i) && is_indexing_pass) {
+      if (!*root_contiguity_.at(root_id_i) && is_indexing_pass) {
         if (!root_ids.empty()) {
           return;
         }
       }
       last_root = root_id;
     }
-    no_broadcast_i++;
   }
 
   // If there's a non_divisible split in the history of merge->out then it can't
 
@@ -157,7 +157,7 @@ class ContigIDs : public OptInDispatch {
   ContigIDs(
       const std::vector<IterDomain*>& ids,
       const std::vector<IterDomain*>& root_domain,
-      const std::vector<bool>& root_contiguity,
+      const std::vector<c10::optional<bool>>& root_contiguity,
       const std::unordered_set<IterDomain*>& final_ids,
       const std::unordered_map<IterDomain*, Val*>& index_map,
       const std::unordered_set<Split*>& divisible_splits,
@@ -188,7 +188,7 @@ class ContigIDs : public OptInDispatch {
   ContigIDs(
       const std::vector<IterDomain*>& ids,
       const std::vector<IterDomain*>& root_domain,
-      const std::vector<bool>& root_contiguity,
+      const std::vector<c10::optional<bool>>& root_contiguity,
       const std::unordered_set<IterDomain*>& final_ids,
       const std::unordered_map<IterDomain*, Val*>& index_map,
       const std::unordered_set<Split*>& divisible_splits,
@@ -264,7 +264,7 @@ class ContigIDs : public OptInDispatch {
   //! Root domains to analyze contiguity
   const std::vector<IterDomain*>& root_domain_;
   //! Contiguity of root_domain_
-  const std::vector<bool>& root_contiguity_;
+  const std::vector<c10::optional<bool>>& root_contiguity_;
   //! Domains where indexing/predicates cannot be done with their
   //! consumers domains
   const std::unordered_set<IterDomain*>& final_ids_;
 
@@ -6,6 +6,7 @@
 #include <torch/csrc/jit/ir/ir.h>
 #include <type.h>
 #include <array>
+#include <optional>
 
 namespace nvfuser {
 
 
@@ -780,7 +780,7 @@ TensorView* castIntermediateValueInCompleteFusion(
     return IrBuilder::create<TensorView>(
         IrBuilder::create<TensorDomain>(
             new_root_domain,
-            TensorDomain::getContiguousContiguity(new_root_domain)),
+            TensorDomain::getContiguityFilledWith(new_root_domain, true)),
         data_type);
   };