Tôi có một số văn bản được tạo bởi một số phần mềm OCR tệ hại.Thuật toán nào có thể nhóm các ký tự thành các từ?
Kết quả chứa hỗn hợp các từ và ký tự cách nhau bằng dấu cách, các ký tự này phải được nhóm thành các từ. Ví dụ,
Expr e s s i o n Syntax
S u m m a r y o f T e r minology
cần phải có được
Expression Syntax
Summary of Terminology
gì các thuật toán có thể nhân vật nhóm diễn tả bằng lời?
Nếu tôi lập trình bằng Python, C#, Java, C hoặc C++, thư viện nào cung cấp việc triển khai các thuật toán?
Cảm ơn.
sử dụng một số tập dữ liệu nltk và kiểm tra các kết hợp có thể hữu ích. Không chắc chắn bạn sẽ kết thúc với kết quả chính xác. Cách tiếp cận tham lam này có thể thất bại trong trường hợp các từ là một phần của các từ lớn. Tuy nhiên không có cách nào để quyết định chọn các từ lớn hoặc một phần. Đây có thể là một điểm khởi đầu tôi đoán. – arunk2
Tôi cảm thấy nỗi đau của bạn khi sử dụng OCR. Bạn có sử dụng thuật toán lập trình động không? Ý tưởng cuối cùng là để chương trình đưa ra quyết định về cách nhóm và quyết định này có thể phải được kiểm tra theo cách đệ quy với mỗi lần kiểm tra một từ trong từ điển tiếng Anh để xác minh xem đó có phải là một từ hợp lệ hay không. – Miket25