Tôi gặp sự cố với regex của mình để nắm bắt các từ được viết hoa liên tiếp. Dưới đây là những gì tôi muốn regex để nắm bắt:Nhận các từ được viết hoa liên tiếp bằng cách sử dụng regex
"said Polly Pocket and the toys" -> Polly Pocket
Đây là regex Tôi đang sử dụng:
re.findall('said ([A-Z][\w-]*(\s+[A-Z][\w-]*)+)', article)
Nó trả về như sau:
[('Polly Pocket', ' Pocket')]
tôi muốn nó trở lại :
['Polly Pocket']
Vậy nếu đầu vào là ' tôi có một chuỗi và nó dài? Nó có nên cho '['có một chuỗi', 'Nó là dài']' hay '['có một chuỗi và nó dài']' –
Tại sao bạn có từ "đã nói" trong tìm kiếm của bạn? Bạn có thực sự có ý định chỉ tìm các từ vốn liên tiếp sau "đã nói" không? – jgritty