Tôi mới sử dụng TensorFlow và Học tập sâu. Tôi đang cố gắng nhận dạng văn bản trong hình ảnh cảnh naturel. Tôi từng làm việc với OCR nhưng tôi muốn sử dụng Deep Learning. Văn bản có định dạng giống nhau: ABC-DEF 88:88
.TensorFlow - Nhận dạng văn bản trong hình
Điều tôi đã làm là nhận biết mọi ký tự/chữ số. Nó có nghĩa là tôi cắt hình ảnh xung quanh mỗi nhân vật (vì vậy mỗi bức ảnh cho tôi 10 ký tự) để xây dựng tập huấn luyện và kiểm tra của tôi và họ xây dựng một mạng lưới thần kinh hai chòm sao. Vì vậy, tập huấn luyện của tôi là một tập hợp các hình ảnh nhân vật và các nhãn chỉ là các ký tự/chữ số.
Nhưng tôi muốn tiếp tục. Những gì tôi muốn làm là chỉ để cung cấp cho hình ảnh đầy đủ và đầu ra toàn bộ văn bản (không phải là một nhân vật như trong mô hình trước đó của tôi).
Cảm ơn bạn trước vì đã được trợ giúp.
Cảm ơn, nhưng nên phân loại này (trượt cửa sổ) phải là một convnet? Bộ đào tạo phải chứa các vùng văn bản nhiều ký tự hoặc chỉ một ký tự? –
Một convnet là tốt và dễ thực hiện, nếu bạn đang sử dụng TensorFlow, Caffe hoặc một số khung học sâu khác, nhưng có thể chậm trong giai đoạn phát hiện (vì bạn cần phải trượt cửa sổ trên toàn bộ hình ảnh, cho mỗi hình ảnh có nhiều cửa sổ). Các mô hình khác cũng hoạt động, chẳng hạn như một phương pháp tăng cường với các tính năng giống Haar (Theo Google "haar giống như tính năng adaboost thác" bạn có thể tìm thấy rất nhiều tài liệu về nhận dạng khuôn mặt). – soloice
@alexattia Tập huấn luyện tốt hơn để chứa nhiều ký tự. Bằng cách này, bạn có thể có một cửa sổ lớn hơn và giảm dương tính giả. Nếu khu vực này quá nhỏ, có thể một số thứ khác sẽ được báo cáo là chữ cái/chữ số. Nói, thuật toán có thể mất một số cạnh dọc như chữ số "1", đó là khủng khiếp. – soloice