Pandas groupby sort on multiindex

Question

import pandas as pd

values = {'C1': ['B', 'A'],
          'C2': ['B', 'A'],
          'C3': ['B', 'A'],   
          }          

df = pd.DataFrame(values)
df.set_index(keys=['C1', 'C2'], inplace=True)

grouped = df.groupby(level='C1', sort=False)

for name, group in grouped:
    print(name)

yields

A
B

However, I would expect

B
A

How do I get the second result?

I am not sure whether this report on unwanted sorting is related: https://github.com/pydata/pandas/issues/4588 — tfv, Apr 23 '16 at 14:14

score 0 · Answer 1 · edited Jun 20 '20 at 09:12

0

Could be a known issue as mentioned in my comment.

Maybe this is a valid workaround:

import pandas as pd

values = {'C1': ['B', 'A'],
          'C2': ['B', 'A'],
          'C3': ['B', 'A'],   
          }          

df = pd.DataFrame(values)

grouped = df.groupby(['C1', 'C2'], sort=False)['C3']

for name, group in grouped:
    print group.iloc[0]

Result

B

A

edited Jun 20 '20 at 09:12

Community

1
1

answered Apr 23 '16 at 14:23

tfv

6,016
4
36
67

score 0 · Answer 2 · answered Apr 23 '16 at 14:36

Consider restructuring your data

Unless your real data requires you to reset to a MultiIndex, it seems unnecessary to reindex before doing a groupby().

If you groupby C1 only you get your desired example output:

import pandas as pd

values = {'C1': ['B', 'A'],
          'C2': ['B', 'A'],
          'C3': ['B', 'A'],   
          }          

df = pd.DataFrame(values)

print 'Original DataFrame'
print df
print

df2 = df.set_index(keys=['C1', 'C2'], inplace=False)

print 'Reindexed DataFrame'
print df2
print

grouped = df.groupby(['C1'], sort=False)
grouped2 = df2.groupby(level='C1', sort=False)

print 'Original Groups'
print grouped.groups
print

print 'Reindexed Groups'
print grouped2.groups
print

print 'Original Group for loop output'
for name, group in grouped:
    print(name)

print
print 'Reindexed Group for loop output'
for name, group in grouped2:
    print(name)

Original DataFrame
  C1 C2 C3
0  B  B  B
1  A  A  A

Reindexed DataFrame
      C3
C1 C2   
B  B   B
A  A   A

Original Groups
{'A': [1], 'B': [0]}

Reindexed Groups
{'A': [('A', 'A')], 'B': [('B', 'B')]}

Original Group for loop output
B
A

Reindexed Group for loop output
A
B

Pandas groupby sort on multiindex

2 Answers2

Linked