Tôi muốn xóa các từ dừng khỏi cột Dữ liệu trong tệp của mình. Tôi lọc ra dòng khi người dùng cuối nói. Nhưng nó không lọc ra các từ dừng với usertext.apply(lambda x: [word for word in x if word not in stop_words])
tôi đang làm gì sai?Xóa các từ dừng khỏi tệp
import pandas as pd
from stop_words import get_stop_words
df = pd.read_csv("F:/textclustering/data/cleandata.csv", encoding="iso-8859-1")
usertext = df[df.Role.str.contains("End-user",na=False)][['Data','chatid']]
stop_words = get_stop_words('dutch')
clean = usertext.apply(lambda x: [word for word in x if word not in stop_words])
print(clean)
đầu tiên có thể y ou 1) in 'stop_words', 2) thử' clean = usertext.apply (lambda x: []) 'để xem nó có xóa tất cả các từ không? (chỉ để kiểm tra) –
Dữ liệu [] chatid [] dtype: đối tượng ['aan', 'al', 'alles', 'als', 'altijd', 'andere', 'ben', 'bij' , 'daar', 'dan', 'dat', 'de', 'der', 'deze', 'die', 'dit', 'doch', 'doen', 'door', 'dus', ' een ',' eens ',' en ',' er ',' ge ',' geen ',' geweest ',' haar ',' had ',' heb ',' hebben ',' heeft ',' hem ' , 'het', 'hier', 'hij', 'hoe', 'hun', 'iemand', 'iets', 'ik', 'in', 'is', 'ja', 'je', ' kan ',' kon ',' kunnen ',' ma ',' tôi ',' meer ',' đàn ông ',' gặp ',' mij ',' mijn ',' moet ',' na ',' naar ' , 'niet', 'niets', 'nog', 'nu', 'của', 'om', 'omdat', ...] Đây là đầu ra của cả hai – DataNewB