Tôi có một DataFrame gấu trúc với các giá trị trùng lặp cho một tập hợp các cột. Ví dụ:Cách xác định sự xuất hiện đầu tiên của các hàng trùng lặp trong chú gấu trúc Python Dataframe
df = pd.DataFrame({'Column1': {0: 1, 1: 2, 2: 3}, 'Column2': {0: 'ABC', 1: 'XYZ', 2: 'ABC'}, 'Column3': {0: 'DEF', 1: 'DEF', 2: 'DEF'}, 'Column4': {0: 10, 1: 40, 2: 10})
In [2]: df
Out[2]:
Column1 Column2 Column3 Column4 is_duplicated dup_index
0 1 ABC DEF 10 False 0
1 2 XYZ DEF 40 False 1
2 3 ABC DEF 10 True 0
Hàng (1) và (3) giống nhau. Về cơ bản, Row (3) là một bản sao của Row (1).
Tôi đang tìm kiếm đầu ra sau đây:
Is_Duplicate
, chứa dù hàng là một bản sao hay không [có thể được thực hiện bằng cách sử dụng phương pháp "nhân đôi" trên các cột dataframe (--COLUMN2, cột3 và Column4)]
Dup_Index
chỉ mục gốc của hàng trùng lặp.
In [3]: df
Out[3]:
Column1 Column2 Column3 Column4 Is_Duplicate Dup_Index
0 1 ABC DEF 10 False 0
1 2 XYZ DEF 40 False 1
2 3 ABC DEF 10 True 0
Làm thế nào để bạn có được df1 của bạn? –
@RutgerKassies câu hỏi hay! Tôi đã bỏ lỡ một chút ... –
Cảm ơn, giải pháp rất thanh lịch. –