2017-02-15 33 views
6

Tôi mới sử dụng TensorFlow và Học tập sâu. Tôi đang cố gắng nhận dạng văn bản trong hình ảnh cảnh naturel. Tôi từng làm việc với OCR nhưng tôi muốn sử dụng Deep Learning. Văn bản có định dạng giống nhau: ABC-DEF 88:88.TensorFlow - Nhận dạng văn bản trong hình

Điều tôi đã làm là nhận biết mọi ký tự/chữ số. Nó có nghĩa là tôi cắt hình ảnh xung quanh mỗi nhân vật (vì vậy mỗi bức ảnh cho tôi 10 ký tự) để xây dựng tập huấn luyện và kiểm tra của tôi và họ xây dựng một mạng lưới thần kinh hai chòm sao. Vì vậy, tập huấn luyện của tôi là một tập hợp các hình ảnh nhân vật và các nhãn chỉ là các ký tự/chữ số.

Nhưng tôi muốn tiếp tục. Những gì tôi muốn làm là chỉ để cung cấp cho hình ảnh đầy đủ và đầu ra toàn bộ văn bản (không phải là một nhân vật như trong mô hình trước đó của tôi).

Cảm ơn bạn trước vì đã được trợ giúp.

Trả lời

5

Khó khăn là bạn không biết văn bản ở đâu. Giải pháp là, đưa ra một hình ảnh, bạn cần phải sử dụng một cửa sổ trượt để cắt phần khác nhau của hình ảnh, sau đó sử dụng một trình phân loại để quyết định xem có các văn bản trong khu vực bị cắt không. Nếu vậy, hãy sử dụng trình nhận dạng ký tự/chữ số của bạn để cho biết ký tự/chữ số thực sự là gì.

Vì vậy, bạn cần phải đào tạo một classifer khác: cho hình ảnh bị cắt (kích thước của hình ảnh được cắt lớn hơn một chút so với diện tích văn bản của bạn), quyết định xem có văn bản bên trong hay không.

Chỉ cần xây dựng tập huấn luyện (mẫu dương tính là khu vực văn bản, mẫu tiêu cực là các khu vực khác cắt một cách ngẫu nhiên từ những hình ảnh lớn) và huấn luyện nó ~

+0

Cảm ơn, nhưng nên phân loại này (trượt cửa sổ) phải là một convnet? Bộ đào tạo phải chứa các vùng văn bản nhiều ký tự hoặc chỉ một ký tự? –

+1

Một convnet là tốt và dễ thực hiện, nếu bạn đang sử dụng TensorFlow, Caffe hoặc một số khung học sâu khác, nhưng có thể chậm trong giai đoạn phát hiện (vì bạn cần phải trượt cửa sổ trên toàn bộ hình ảnh, cho mỗi hình ảnh có nhiều cửa sổ). Các mô hình khác cũng hoạt động, chẳng hạn như một phương pháp tăng cường với các tính năng giống Haar (Theo Google "haar giống như tính năng adaboost thác" bạn có thể tìm thấy rất nhiều tài liệu về nhận dạng khuôn mặt). – soloice

+0

@alexattia Tập huấn luyện tốt hơn để chứa nhiều ký tự. Bằng cách này, bạn có thể có một cửa sổ lớn hơn và giảm dương tính giả. Nếu khu vực này quá nhỏ, có thể một số thứ khác sẽ được báo cáo là chữ cái/chữ số. Nói, thuật toán có thể mất một số cạnh dọc như chữ số "1", đó là khủng khiếp. – soloice

Các vấn đề liên quan