pytorch
diff --git a/‎torch/csrc/distributed/Module.cpp
Lines changed: 79 additions & 11 deletions b/‎torch/csrc/distributed/Module.cpp
Lines changed: 79 additions & 11 deletions
diff --git a/‎torch/distributed/__init__.py
Lines changed: 13 additions & 7 deletions b/‎torch/distributed/__init__.py
Lines changed: 13 additions & 7 deletions
diff --git a/‎torch/lib/THD/base/DataChannel.h
Lines changed: 3 additions & 0 deletions b/‎torch/lib/THD/base/DataChannel.h
Lines changed: 3 additions & 0 deletions
diff --git a/‎torch/lib/THD/base/DataChannel.hpp
Lines changed: 6 additions & 3 deletions b/‎torch/lib/THD/base/DataChannel.hpp
Lines changed: 6 additions & 3 deletions
@@ -1,6 +1,8 @@
 #include <Python.h>
 
+#include <memory>
 #include <unordered_map>
+#include <vector>
 
 #include "THDP.h"
 
@@ -10,6 +12,7 @@ static std::unordered_map<std::string, THDChannelType> name2channel_type = {
 };
 
 static std::unordered_map<PyObject*, THDReduceOp> obj2reduceop;
+static std::unordered_map<PyObject*, THDGroup> obj2group;
 
 static THPObjectPtr _ensureBytes(PyObject *obj)
 {
@@ -83,6 +86,18 @@ static THDReduceOp _getReduceOp(PyObject *obj)
   return it->second;
 }
 
+static THDGroup _getGroup(PyObject *obj)
+{
+  auto it = obj2group.find(obj);
+  if (it == obj2group.end()) {
+    if (!THPUtils_checkLong(obj))
+      throw std::runtime_error("group should be an int or one of the values "
+          "from torch.distributed.group");
+    return THPUtils_unpackLong(obj);
+  }
+  return it->second;
+}
+
 PyObject* THDPModule_send(PyObject *_unused, PyObject *args)
 {
   HANDLE_TH_ERRORS
@@ -118,53 +133,97 @@ PyObject* THDPModule_recv(PyObject *_unused, PyObject *args)
 PyObject* THDPModule_allReduce(PyObject *_unused, PyObject *args)
 {
   HANDLE_TH_ERRORS
-  if (PyTuple_GET_SIZE(args) != 2 || !THPModule_isTensor(PyTuple_GET_ITEM(args, 0))) {
-    THPUtils_invalidArguments(args, "all_reduce", 1, "(tensor in_out, reduce_op op)");
+  if (PyTuple_GET_SIZE(args) != 3 || !THPModule_isTensor(PyTuple_GET_ITEM(args, 0))) {
+    THPUtils_invalidArguments(args, "all_reduce", 1, "(tensor in_out, reduce_op op, group gr)");
     return NULL;
   }
 
+  THDGroup group = _getGroup(PyTuple_GET_ITEM(args, 2));
   THDReduceOp op = _getReduceOp(PyTuple_GET_ITEM(args, 1));
   THDPTensorDesc desc = _makeDescriptor(PyTuple_GET_ITEM(args, 0));
-  THDAllReduce(desc, op);
+  THDAllReduce(desc, op, group);
   Py_RETURN_NONE;
   END_HANDLE_TH_ERRORS
 }
 
 PyObject* THDPModule_reduce(PyObject *_unused, PyObject *args)
 {
   HANDLE_TH_ERRORS
-  if (PyTuple_GET_SIZE(args) != 3 || !THPModule_isTensor(PyTuple_GET_ITEM(args, 0)) ||
+  if (PyTuple_GET_SIZE(args) != 4 || !THPModule_isTensor(PyTuple_GET_ITEM(args, 0)) ||
         !THPUtils_checkLong(PyTuple_GET_ITEM(args, 1))) {
     THPUtils_invalidArguments(args, "reduce", 1,
-        "(tensor reduced, int dst_rank, reduce_op op)");
+        "(tensor reduced, int dst_rank, reduce_op op, group gr)");
     return NULL;
   }
 
+  THDGroup group = _getGroup(PyTuple_GET_ITEM(args, 3));
   THDReduceOp op = _getReduceOp(PyTuple_GET_ITEM(args, 2));
   THDPTensorDesc desc = _makeDescriptor(PyTuple_GET_ITEM(args, 0));
   int dst_rank = THPUtils_unpackLong(PyTuple_GET_ITEM(args, 1));
-  THDReduce(desc, op, dst_rank);
+  THDReduce(desc, op, dst_rank, group);
   Py_RETURN_NONE;
   END_HANDLE_TH_ERRORS
 }
 
 PyObject* THDPModule_broadcast(PyObject *_unused, PyObject *args)
 {
   HANDLE_TH_ERRORS
-  if (PyTuple_GET_SIZE(args) != 2 || !THPModule_isTensor(PyTuple_GET_ITEM(args, 0)) ||
+  if (PyTuple_GET_SIZE(args) != 3 || !THPModule_isTensor(PyTuple_GET_ITEM(args, 0)) ||
         !THPUtils_checkLong(PyTuple_GET_ITEM(args, 1))) {
-    THPUtils_invalidArguments(args, "broadcast", 1, "(tensor src_dst, int src_rank)");
+    THPUtils_invalidArguments(args, "broadcast", 1,
+        "(tensor src_dst, int src_rank, group gr)");
     return NULL;
   }
 
+  THDGroup group = _getGroup(PyTuple_GET_ITEM(args, 2));
   THDPTensorDesc desc = _makeDescriptor(PyTuple_GET_ITEM(args, 0));
   int src_rank = THPUtils_unpackLong(PyTuple_GET_ITEM(args, 1));
-  THDBroadcast(desc, src_rank);
+  THDBroadcast(desc, src_rank, group);
   Py_RETURN_NONE;
   END_HANDLE_TH_ERRORS
 }
 
-PyObject* THDPModule_initExtension(PyObject *_unused, PyObject *reduce_op_obj) {
+PyObject* THDPModule_newGroup(PyObject *_unused, PyObject *args)
+{
+  HANDLE_TH_ERRORS
+  PyObject* sequence = PyTuple_GET_ITEM(args, 0);
+  Py_ssize_t tmp_length;
+  std::vector<int> ranks;
+
+  if (PyTuple_GET_SIZE(args) != 1 || !PySequence_Check(sequence))
+    goto invalid_arguments;
+
+  tmp_length = PySequence_Length(sequence);
+  THPUtils_assert(tmp_length >= 0, "couldn't obtain the length of %s",
+      THPUtils_typename(sequence));
+
+  ranks.reserve(static_cast<std::size_t>(tmp_length));
+  for (std::size_t i = 0; i < ranks.capacity(); ++i) {
+    if (!THPUtils_checkLong(PySequence_ITEM(sequence, i)))
+      goto invalid_arguments;
+
+    ranks.push_back(THPUtils_unpackLong(PySequence_ITEM(sequence, i)));
+    for (std::size_t j = 0; j < i; ++j)
+      THPUtils_assert(ranks[i] != ranks[j], "ranks should be unique");
+  }
+
+  return PyInt_FromLong(THDNewGroup(ranks.data(), ranks.size()));
+
+invalid_arguments:
+  THPUtils_invalidArguments(args, "newGroup", 1, "(list[int] ranks)");
+  return NULL;
+  END_HANDLE_TH_ERRORS
+}
+
+PyObject* THDPModule_initExtension(PyObject *_unused, PyObject *args) {
+  if (PyTuple_GET_SIZE(args) != 2) {
+    THPUtils_invalidArguments(args, "initExtension", 1, "(reduce_op obj, group obj)");
+    return NULL;
+  }
+
+  PyObject* reduce_op_obj = PyTuple_GET_ITEM(args, 0);
+  PyObject* group_obj = PyTuple_GET_ITEM(args, 1);
+
   THPObjectPtr reduce_op;
 #define REGISTER_REDUCE_OP(NAME)                                               \
   reduce_op = PyObject_GetAttrString(reduce_op_obj, #NAME);                    \
@@ -175,11 +234,19 @@ PyObject* THDPModule_initExtension(PyObject *_unused, PyObject *reduce_op_obj) {
   REGISTER_REDUCE_OP(MIN);
   REGISTER_REDUCE_OP(MAX);
 #undef REGISTER_REDUCE_OP
+
+  THPObjectPtr group;
+#define REGISTER_GROUP(NAME)                                           \
+  group = PyObject_GetAttrString(group_obj, #NAME);                    \
+  THPUtils_assert(group, "Missing object for group " #NAME);           \
+  obj2group.emplace(group.get(), THDGroup##NAME);
+  REGISTER_GROUP(WORLD);
+#undef REGISTER_GROUP
   Py_RETURN_TRUE;
 }
 
 static struct PyMethodDef _THDPModule_methods[] = {
-  {"_dist_init_extension", (PyCFunction)THDPModule_initExtension, METH_O, NULL},
+  {"_dist_init_extension", (PyCFunction)THDPModule_initExtension, METH_VARARGS, NULL},
   {"_dist_init_process_group", (PyCFunction)THDPModule_initProcessGroup, METH_O, NULL},
   {"_dist_get_rank", (PyCFunction)THDPModule_getRank, METH_NOARGS, NULL},
   {"_dist_get_num_processes", (PyCFunction)THDPModule_getNumProcesses, METH_NOARGS, NULL},
@@ -188,6 +255,7 @@ static struct PyMethodDef _THDPModule_methods[] = {
   {"_dist_all_reduce", (PyCFunction)THDPModule_allReduce, METH_VARARGS, NULL},
   {"_dist_reduce", (PyCFunction)THDPModule_reduce, METH_VARARGS, NULL},
   {"_dist_broadcast", (PyCFunction)THDPModule_broadcast, METH_VARARGS, NULL},
+  {"_dist_new_group", (PyCFunction)THDPModule_newGroup, METH_VARARGS, NULL},
   {NULL}
 };
 
 
@@ -18,6 +18,9 @@ class reduce_op(object):
     MAX = object()
     MIN = object()
 
+class group(object):
+    WORLD = object()
+
 def get_rank():
     return torch._C._dist_get_rank()
 
@@ -34,16 +37,19 @@ def recv(tensor, src_rank):
     return torch._C._dist_recv(tensor, src_rank)
 
 
-def broadcast(tensor, src_rank):
-    return torch._C._dist_broadcast(tensor, src_rank)
+def broadcast(tensor, src_rank, group=group.WORLD):
+    return torch._C._dist_broadcast(tensor, src_rank, group)
+
 
+def all_reduce(tensor, op=reduce_op.SUM, group=group.WORLD):
+    return torch._C._dist_all_reduce(tensor, op, group)
 
-def all_reduce(tensor, op=reduce_op.SUM):
-    return torch._C._dist_all_reduce(tensor, op)
 
+def reduce(tensor, dst_rank, op=reduce_op.SUM, group=group.WORLD):
+    return torch._C._dist_reduce(tensor, dst_rank, op, group)
 
-def reduce(tensor, dst_rank, op=reduce_op.SUM):
-    return torch._C._dist_reduce(tensor, dst_rank, op)
 
+def new_group(ranks):
+    return torch._C._dist_new_group(ranks)
 
-assert torch._C._dist_init_extension(reduce_op)
+assert torch._C._dist_init_extension(reduce_op, group)
@@ -6,3 +6,6 @@ enum THDReduceOp {
   THDReduceSUM,
   THDReducePRODUCT,
 };
+
+typedef int THDGroup;
+static THDGroup THDGroupWORLD = 0;
@@ -16,12 +16,15 @@ struct DataChannel {
   virtual int getRank() = 0;
   virtual int getNumProcesses() = 0;
 
-  virtual void allReduce(Tensor& data, THDReduceOp operation) = 0;
-  virtual void reduce(Tensor& data, THDReduceOp operation, int dst_rank) = 0;
-  virtual void broadcast(Tensor& data, int src_rank) = 0;
+  virtual void allReduce(Tensor& data, THDReduceOp operation, THDGroup group_id = THDGroupWORLD) = 0;
+  virtual void reduce(Tensor& data, THDReduceOp operation, int dst_rank,
+                      THDGroup group_id = THDGroupWORLD) = 0;
+  virtual void broadcast(Tensor& data, int src_rank, THDGroup group_id = THDGroupWORLD) = 0;
   virtual void send(Tensor& data, int dst_rank) = 0;
   virtual void receive(Tensor& data, int src_rank) = 0;
 
+  virtual THDGroup newGroup(std::vector<int> ranks) = 0;
+
   static DataChannel* newChannel(THDChannelType type);
 };