Tôi đang cố tìm kiếm biểu tượng cảm xúc trong chuỗi python. Vì vậy, tôi có, ví dụ,Cách lấy danh sách ký tự unicode thích hợp trong python
em_test = ['\U0001f680']
print(em_test)
['']
test = 'This is a test string '
if any(x in test for x in em_test):
print ("yes, the emoticon is there")
else:
print ("no, the emoticon is not there")
yes, the emoticon is there
và nếu một em_test tìm kiếm trong
'This is a test string '
tôi thực sự có thể tìm thấy nó.
Vì vậy, tôi đã tạo tệp csv với tất cả các biểu tượng cảm xúc mà tôi muốn được định nghĩa bằng unicode của chúng. CSV trông như thế này:
\U0001F600
\U0001F601
\U0001F602
\U0001F923
và khi tôi nhập nó và in nó tôi actullay không nhận được biểu tượng cảm xúc mà chỉ là đại diện văn bản:
['\\U0001F600',
'\\U0001F601',
'\\U0001F602',
'\\U0001F923',
...
]
và vì thế tôi không thể sử dụng để tìm kiếm các biểu tượng cảm xúc trong một chuỗi khác ... Tôi bằng cách nào đó biết rằng dấu gạch chéo ngược \ chỉ đại diện cho một dấu gạch chéo đơn nhưng bằng cách nào đó trình đọc unicode không nhận được nó ... Tôi không biết những gì tôi đang thiếu.
Mọi đề xuất?
bạn có chắc chắn không có bất kỳ nguồn cấp dữ liệu nào không? –