Liệt kê các bộ dữ liệu vào bảng nhị phân?

Tôi có một danh sách các giao dịch/bản ghi trong Python với số khác nhau hoặc các yếu tố, như thế này:Liệt kê các bộ dữ liệu vào bảng nhị phân?

lst = [('apple','banana','carrots'),('apple',),('banana','carrots',)]

Tôi muốn để lưu trữ danh sách này trong một dạng bảng (tốt nhất trong một pd.DataFrame) như thế này:

apple banana carrots 
0  1  1  1 
1  1  0  0 
2  0  1  1

Nhưng nếu cố gắng để chuyển đổi trực tiếp sử dụng pd.DataFrame, tôi nhận được thay vì của mình:

pd.DataFrame(lst)

 0  1  2 
0 apple banana carrots 
1 apple  None  None 
2 banana carrots  None

Làm cách nào để chuyển đổi loại danh sách này thành bảng nhị phân?

Nguồn

2017-12-13 Adriano Arantes

Hãy thử get_dummies + groupby + sum -

pd.get_dummies(pd.DataFrame(lst)).groupby(by=lambda x: x.split('_')[1], axis=1).sum() 

    apple banana carrots 
0  1  1  1 
1  1  0  0 
2  0  1  1

này nên được khá nhanh.

Nguồn

2017-12-13 09:08:44

Không chỉ khá nhanh, nhưng siêu dooper nhanh – Dark

Thực sự nhanh chóng thực sự! Tôi mất 50 giây để xử lý danh sách 4,5 triệu yếu tố! Cảm ơn bạn COLDSPEED !! –

@AdrianoArantes bạn được chào đón! Câu trả lời được chấp nhận trước đó bao lâu? –

Các phương pháp sau đây:

Xác định lst
Tìm tất cả các chuỗi duy nhất trong lst
lần xuất hiện Đếm trong từng tuple trong danh sách
Tạo datafram e

được thực hiện ở đây:

import pandas as pd 
import numpy as np 

lst = [('apple','banana','carrots'),('apple',),('banana','carrots',)] 
cols = np.unique(sum(tuple(lst),())) 
data = [[i.count(j) for j in cols] for i in lst] 
df = pd.DataFrame(columns=cols, data=data)

Output:

apple banana carrots 
0  1  1  1 
1  1  0  0 
2  0  1  1

Nguồn

2017-12-13 01:04:03 Robbie

điều này sẽ không là nhị phân nếu một phần tử xuất hiện nhiều lần trong một hàng – Nate

@Nếu đúng, mặc dù nó sẽ là nhị phân nếu đầu vào có cùng định dạng như trong câu hỏi. – Robbie

Cảm ơn @Robbie, giải pháp của bạn hoạt động tốt trong trường hợp của tôi và vâng, đối với các vấn đề của tôi, mỗi phần tử chỉ xuất hiện một lần mỗi hàng. –

Bạn có thể thử này:

import itertools 
class Table: 
    def __init__(self, data): 
     self.lst = data 
     self.headers = headers = list(set(itertools.chain(*self.lst))) 
     self.new_count = {i:[b.count(i) for b in self.lst] for i in self.headers} 
    def __getitem__(self, row): 
     if isinstance(row, int): 
      return [d[row] for c, d in sorted(self.new_count.items(), key=lambda x:x[0])] 
     return self.new_count[row] 
    def __repr__(self): 
     return ' '.join(sorted(self.new_count.keys()))+'\n'+'\n'.join('{}. {}'.format(i, ' '.join(map(str, d))) for i, d in enumerate(zip(*[e[-1] for e in sorted(self.new_count.items(), key=lambda x:x[0])]))) 

lst = [('apple','banana','carrots'),('apple',),('banana','carrots',)] 
t = Table(lst) 
print(t)

Output:

apple banana carrots 
0. 1 1 1 
1. 1 0 0 
2. 0 1 1

Nguồn

2017-12-13 01:09:20 Ajax1234

Tạo danh sách tạm thời với các mục được chuyển đổi thành nhị phân, sau đó sử dụng Dataframe Viết vòng lặp chuyển đổi từng mục thành nhị phân.

def pad_collection(collection, pad_value): 
    sorted_collection = sorted(collection, key=lambda tup: len(tup)) 
    max_length = len(sorted_collection[-1]) 
    for item in collection: 
     for i in range (max_length - len(item)): 
      item.append(pad_value) 
    return collection 

def convert_to_binary(collection): 
    result = [] 
    padded_collection = pad_collection(collection) 
    for i in padded_collection: 
     temp = [] 
     for element in i: 
      new_element = int(bool(element)) 
      temp.append(new_element) 
     result.append(tuple(temp)) 
    return padded_collection

Nguồn

2017-12-13 01:14:23 dmchdev

này là rất đơn giản nếu bạn sử dụng value_counts trên cột tức là

pd.DataFrame(lst).apply(pd.value_counts,1).fillna(0) 

    apple banana carrots 
0 1.0  1.0  1.0 
1 1.0  0.0  0.0 
2 0.0  1.0  1.0

Nguồn

2017-12-13 02:35:12 Dark

'value_counts' có vẻ như 'thuộc về' với bạn :-) – Wen

Haha có thể, cảm thấy thích sử dụng nó – Dark

Xin chào @Dark. Cảm ơn vì giải pháp của bạn. Nó có vẻ đơn giản, nhưng phải mất quá nhiều thời gian để chạy. Danh sách của tôi thực sự có hơn 4 triệu yếu tố. Và vì lý do nào đó, giải pháp của Robbie chạy nhanh hơn nhiều. Bạn có thể giúp tôi hiểu tại sao không? Cảm ơn –

Chỉ stack và get_dummies

pd.DataFrame(lst).stack().str.get_dummies().sum(level=0) 
Out[114]: 
    apple banana carrots 
0  1  1  1 
1  1  0  0 
2  0  1  1

Nguồn

2017-12-13 02:55:45 Wen

Kiểm tra câu trả lời của tôi khi bạn có thể! –

@ cᴏʟᴅsᴘᴇᴇᴅ sử dụng tốt của groupby ！！ – Wen

Bạn có thể thử trong logic thuần túy mà không cần nhập bất kỳ thành phần bên ngoài,

lst = [('apple','banana','carrots'),('apple',),('banana','carrots',)] 

track_uniqu=[] 
for i in lst: 
    for k in i: 

     if k not in track_uniqu: 
      track_uniqu.append(k) 

final={} 
for i,j in enumerate(lst): 

    dummy=[0]*len(track_uniqu) 

    for k in j: 
     if k in track_uniqu: 

      dummy[track_uniqu.index(k)]=1 
      final[i]=dummy 
     else: 
      pass 
print(final)

đầu ra:

{0: [1, 1, 1], 1: [1, 0, 0], 2: [0, 1, 1]}

Kết quả là ở định dạng dict nhưng bạn có thể tạo dữ liệu bảng từ dict này như bạn muốn.

Nguồn

2017-12-13 06:43:43

Liệt kê các bộ dữ liệu vào bảng nhị phân?

Trả lời

Các vấn đề liên quan