df[df['CustID'].duplicated(keep=False)]
Điều này tìm thấy các hàng trong khung dữ liệu có tồn tại các bản sao trong cột CustID
. Các keep=False
kể duplicated
chức năng để đánh dấu tất cả các hàng trùng lặp như True
(như trái ngược với chỉ những người đầu tiên hoặc cuối cùng):
CustID Purchase Time
0 A Item1 01/01/2011
3 A Item2 03/01/2011
EDIT
Nhìn vào các tài liệu cho duplicated
có vẻ như bạn có thể cũng làm:
df[df.duplicated('CustID', keep=False)]
Mặc dù điều này có vẻ chậm hơn khoảng 100 µs so với bản gốc (458 µs so với 545 µs dựa trên khung dữ liệu ví dụ)
Đây là cách tiếp cận của tôi, cộng với một. Để làm cho nó hiệu quả hơn, bạn có thể chuyển 'sort = False' thành' value_counts' – piRSquared
Câu trả lời hay! Tuy nhiên, dấu ngoặc/ngoặc đơn của bạn trên dòng thứ hai là ngược lại. Tôi muốn chỉnh sửa bản thân nhưng muốn tránh nguy cơ phá hủy định dạng của bạn trên điện thoại của tôi :) – miradulo