Pandas chọn hàng nếu ID xuất hiện vài lần

Tôi có một bảng như thế này:Pandas chọn hàng nếu ID xuất hiện vài lần

CustID Purchase Time 
A  Item1  01/01/2011 
B  Item2  01/01/2011 
C  Item1  01/02/2011 
A  Item2  03/01/2011

Tôi muốn chọn hàng với ID Khách hàng xuất hiện nhiều hơn 1 trong bảng.

Nguồn

2017-04-11 Hai Vu

Điều này có thể làm việc:

counts = df['CustID'].value_counts() 
df[df['CustID'].isin(counts.index[counts > 1])]

Kết quả:

CustID Purchase  Time 
0  A Item1 01/01/2011 
3  A Item2 03/01/2011

Nguồn

2017-04-11 14:06:19 languitar

Đây là cách tiếp cận của tôi, cộng với một. Để làm cho nó hiệu quả hơn, bạn có thể chuyển 'sort = False' thành' value_counts' – piRSquared

Câu trả lời hay! Tuy nhiên, dấu ngoặc/ngoặc đơn của bạn trên dòng thứ hai là ngược lại. Tôi muốn chỉnh sửa bản thân nhưng muốn tránh nguy cơ phá hủy định dạng của bạn trên điện thoại của tôi :) – miradulo

Sử dụng filter

df.groupby('CustID').filter(lambda x: len(x) > 1)

CustID Purchase  Time 
0  A Item1 01/01/2011 
3  A Item2 03/01/2011

Nguồn

2017-04-11 14:06:25 piRSquared

Cảm ơn bạn! Thực sự hữu ích –

df[df['CustID'].duplicated(keep=False)]

Điều này tìm thấy các hàng trong khung dữ liệu có tồn tại các bản sao trong cột CustID. Các keep=False kể duplicated chức năng để đánh dấu tất cả các hàng trùng lặp như True (như trái ngược với chỉ những người đầu tiên hoặc cuối cùng):

CustID Purchase  Time 
0  A Item1 01/01/2011 
3  A Item2 03/01/2011

EDIT

Nhìn vào các tài liệu cho duplicated có vẻ như bạn có thể cũng làm:

df[df.duplicated('CustID', keep=False)]

Mặc dù điều này có vẻ chậm hơn khoảng 100 µs so với bản gốc (458 µs so với 545 µs dựa trên khung dữ liệu ví dụ)

Nguồn

2017-04-11 14:11:48 bunji

Tôi nghĩ rằng giải pháp nhanh nhất. – jezrael

Tôi nghĩ đây là phương pháp trực quan nhất kể từ khi chúng tôi xử lý các bản sao. +1 – pansen

Cảm ơn bạn! Tôi chưa bao giờ nghĩ rằng tôi có thể sử dụng 'trùng lặp' trong trường hợp này –

Pandas chọn hàng nếu ID xuất hiện vài lần

Trả lời

Các vấn đề liên quan