dataframes My chứa một lĩnh vực mà là một ngày và nó xuất hiện trong định dạng chuỗi, như ví dụPySpark: lọc một DataFrame bởi trường ngày trong phạm vi nơi ngày là chuỗi
'2015-07-02T11:22:21.050Z'
tôi cần phải lọc DataFrame trên ngày chỉ nhận được các hồ sơ trong tuần trước. Vì vậy, tôi đã cố gắng một cách tiếp cận bản đồ nơi tôi chuyển ngày chuỗi các đối tượng datetime với strptime:
def map_to_datetime(row):
format_string = '%Y-%m-%dT%H:%M:%S.%fZ'
row.date = datetime.strptime(row.date, format_string)
df = df.map(map_to_datetime)
và sau đó tôi sẽ áp dụng một bộ lọc như
df.filter(lambda row:
row.date >= (datetime.today() - timedelta(days=7)))
tôi quản lý để có được làm việc lập bản đồ nhưng bộ lọc không thành công với
TypeError: condition should be string or Column
Có cách nào để sử dụng bộ lọc theo cách hoạt động hoặc tôi nên thay đổi cách tiếp cận và cách thực hiện?