2015-05-03 32 views
8

Có cách nào để có điều kiện thả trùng lặp (sử dụng drop_duplicates cụ thể) trong một khung dữ liệu gấu trúc w/khoảng 10 cột và 400.000 hàng? Đó là, tôi muốn giữ tất cả các hàng có 2 cột đáp ứng một điều kiện: nếu sự kết hợp của ngày (cột) và lưu trữ (cột) # là duy nhất, giữ hàng, khác khôn ngoan, thả.Có điều kiện loại bỏ trùng lặp gấu trúc python

+0

Bạn đã thử gì? Có những câu lệnh 'if' cuối cùng có ích, nhưng sau đó có, điều đó có thể hơi lộn xộn một chút. Bạn đã kiểm tra xem có phương pháp nào trong tài liệu hướng dẫn về điều này không? – Zizouz212

+0

Sẽ luôn hữu ích khi đăng dữ liệu mẫu và đầu ra dự kiến. – Zero

+0

có, tôi đang cố gắng tìm ra cách đăng một số dữ liệu mẫu. –

Trả lời

6

Sử dụng drop_duplicates trở dataframe với hàng trùng lặp loại bỏ, tùy chọn chỉ xem xét một số cột

Hãy dataframe ban đầu giống như

In [34]: df 
Out[34]: 
    Col1 Col2 Col3 
0 A B 10 
1 A B 20 
2 A C 20 
3 C B 20 
4 A B 20 

Nếu bạn muốn đi kết hợp độc đáo từ các cột nhất định 'Col1', 'Col2'

In [35]: df.drop_duplicates(['Col1', 'Col2']) 
Out[35]: 
    Col1 Col2 Col3 
0 A B 10 
2 A C 20 
3 C B 20 

Nếu bạn muốn kết hợp độc đáo tất cả các cột

In [36]: df.drop_duplicates() 
Out[36]: 
    Col1 Col2 Col3 
0 A B 10 
1 A B 20 
2 A C 20 
3 C B 20 
+0

Cảm ơn bạn. Tôi nghĩ rằng bạn đã có thể làm sáng tỏ một số nhầm lẫn tôi có về combo. –

+0

@Morgan Sacco: Nếu câu trả lời này phù hợp với bạn, bạn nên đánh dấu nó là được chấp nhận. – ssoler

Các vấn đề liên quan