TST: raise ValueError when no group keys passed, close #1048

wesm · wesm · commit f03dd5cf4045 · 2012-05-07T12:36:03.000-04:00
diff --git a/RELEASE.rst b/RELEASE.rst
@@ -59,6 +59,7 @@ pandas 0.8.0
   - Couldn't assign whole array to column in mixed-type DataFrame via .ix
     (#1142)
   - Fix label slicing issues with float index values (#1167)
+  - Fix segfault caused by empty groups passed to groupby (#1048)
 
 pandas 0.7.3
 ============
diff --git a/pandas/core/groupby.py b/pandas/core/groupby.py
@@ -1109,6 +1109,9 @@ def _get_grouper(obj, key=None, axis=0, level=None, sort=True):
             ping.name = 'key_%d' % i
         groupings.append(ping)
 
+    if len(groupings) == 0:
+        raise ValueError('No group keys passed!')
+
     grouper = Grouper(group_axis, groupings, sort=sort)
 
     return grouper, exclusions
diff --git a/pandas/src/generate_code.py b/pandas/src/generate_code.py
@@ -464,9 +464,6 @@ def groupby_%(name)s(ndarray[%(c_type)s] index, ndarray labels):
     cdef list members
     cdef object idx, key
 
-    if len(labels) == 0:
-        return list(index)
-
     length = len(index)
 
     for i in range(length):
diff --git a/pandas/src/generated.pyx b/pandas/src/generated.pyx
@@ -1625,9 +1625,6 @@ def groupby_float64(ndarray[float64_t] index, ndarray labels):
     cdef list members
     cdef object idx, key
 
-    if len(labels) == 0:
-        return list(index)
-
     length = len(index)
 
     for i in range(length):
@@ -1653,9 +1650,6 @@ def groupby_object(ndarray[object] index, ndarray labels):
     cdef list members
     cdef object idx, key
 
-    if len(labels) == 0:
-        return list(index)
-
     length = len(index)
 
     for i in range(length):
@@ -1681,9 +1675,6 @@ def groupby_int32(ndarray[int32_t] index, ndarray labels):
     cdef list members
     cdef object idx, key
 
-    if len(labels) == 0:
-        return list(index)
-
     length = len(index)
 
     for i in range(length):
@@ -1709,9 +1700,6 @@ def groupby_int64(ndarray[int64_t] index, ndarray labels):
     cdef list members
     cdef object idx, key
 
-    if len(labels) == 0:
-        return list(index)
-
     length = len(index)
 
     for i in range(length):
@@ -1737,9 +1725,6 @@ def groupby_bool(ndarray[uint8_t] index, ndarray labels):
     cdef list members
     cdef object idx, key
 
-    if len(labels) == 0:
-        return list(index)
-
     length = len(index)
 
     for i in range(length):
diff --git a/pandas/tests/test_groupby.py b/pandas/tests/test_groupby.py
@@ -120,10 +120,6 @@ def test_basic(self):
         # corner cases
         self.assertRaises(Exception, grouped.aggregate, lambda x: x * 2)
 
-        result = self.df.groupby([]).groups
-        expected = range(len(self.df))
-        self.assertEqual(tuple(result), tuple(expected))
-
         # tests for first / last / nth
         grouped = self.df.groupby('A')
         first = grouped.first()
@@ -144,7 +140,9 @@ def test_basic(self):
         expected.name ='foo'
         assert_series_equal(nth.xs('foo'), expected)
 
-
+    def test_empty_groups(self):
+        # GH # 1048
+        self.assertRaises(ValueError, self.df.groupby, [])
 
     def test_groupby_dict_mapping(self):
         # GH #679
@@ -1624,10 +1622,10 @@ def test_column_select_via_attr(self):
     def test_rank_apply(self):
         lev1 = np.array([rands(10) for _ in xrange(1000)], dtype=object)
         lev2 = np.array([rands(10) for _ in xrange(130)], dtype=object)
-        lab1 = np.random.randint(0, 1000, size=10000)
-        lab2 = np.random.randint(0, 130, size=10000)
+        lab1 = np.random.randint(0, 1000, size=5000)
+        lab2 = np.random.randint(0, 130, size=5000)
 
-        df = DataFrame({'value' : np.random.randn(10000),
+        df = DataFrame({'value' : np.random.randn(5000),
                         'key1' : lev1.take(lab1),
                         'key2' : lev2.take(lab2)})