Tôi tự hỏi làm thế nào bạn sẽ đi về tokenizing chuỗi bằng tiếng Anh (hoặc các ngôn ngữ phương Tây khác) nếu whitespaces đã được gỡ bỏ?Justadistraction: tokenizing tiếng Anh không có khoảng trắng. Murakami SheepMan
Cảm hứng cho câu hỏi là nhân vật Cừu Man trong cuốn tiểu thuyết Murakami 'Dance Dance Dance'
Trong tiểu thuyết, Man Cừu được dịch là nói những câu như:
"likewesaid, chúng tôi Hãy cố gắng kết nối với anh, "Sheep Man nói. "Butwecan'tdoit-alone. Yougottaworktoo."
Vì vậy, một số dấu chấm câu được lưu giữ, nhưng không phải tất cả. Đủ cho một người đọc, nhưng phần nào tùy ý.
Chiến lược của bạn để xây dựng trình phân tích cú pháp cho điều này là gì? Sự kết hợp thông thường của các chữ cái, số âm tiết, ngữ pháp có điều kiện, nhìn về phía trước/phía sau regexps vv?
Cụ thể, python-wise, bạn sẽ cấu trúc luồng dịch (tha thứ) như thế nào? Không yêu cầu một câu trả lời hoàn chỉnh, chỉ cần nhiều hơn như thế nào quá trình suy nghĩ của bạn sẽ đi về phá vỡ vấn đề xuống.
Tôi hỏi điều này một cách phù phiếm, nhưng tôi nghĩ đó là câu hỏi có thể nhận được một số câu trả lời thú vị (nlp/crypto/tần số/xã hội). Cảm ơn!
Bạn có thể thử một cây radix về lá thư bằng tra cứu thư. Nó cũng sẽ cho phép bạn dễ dàng biết nếu có các trận đấu tiềm năng dài hơn. – Olson
Ồ, wow. Tôi đã nghĩ về một cái gì đó như thế (một cây với 26 đứa trẻ trên mỗi nút, là suy nghĩ của tôi), nhưng ông chủ của tôi nói đó là một ý tưởng lố bịch. Tôi phải ngừng nghe anh ta. > :( – JoshD
+1 Tôi đã thực sự nghĩ về một cái gì đó như thế này một thời gian trước đây.Tôi thậm chí chạy vào cùng một vấn đề: "hi there" == "hithere" == "nhấn ở đây". "Để có được cô ấy" == " cùng nhau "==" với nhau ". – inspectorG4dget