Tôi có một tập tin csv như thế này:Làm thế nào để loại bỏ các bản sao trong một tập tin csv dựa trên hai cột?
column1 column2
john kerry
adam stephenson
ashley hudson
john kerry
etc..
Tôi muốn gỡ bỏ bản sao từ tập tin này, để có được chỉ:
column1 column2
john kerry
adam stephenson
ashley hudson
tôi đã viết kịch bản này mà loại bỏ bản sao dựa trên lastnames, nhưng tôi cần phải loại bỏ các bản sao dựa trên họ và tên.
import csv
reader=csv.reader(open('myfilewithduplicates.csv', 'r'), delimiter=',')
writer=csv.writer(open('myfilewithoutduplicates.csv', 'w'), delimiter=',')
lastnames = set()
for row in reader:
if row[1] not in lastnames:
writer.writerow(row)
lastnames.add(row[1])
"Tôi đã viết tập lệnh này loại bỏ các từ khóa trùng lặp dựa trên tên, nhưng tôi cần xóa các bản sao trùng lặp dựa trên tên VÀ tên." Tôi bối rối ở đây. Khi bạn nói tên bạn có nghĩa là tên, họ hoặc một nối? Tập lệnh của bạn chỉ hoạt động trên họ. – Jeff
Xin lỗi vì không rõ ràng, tôi muốn xóa các bản sao dựa trên họ (column2) và tên (cột1) – Reveclair