Giải pháp dễ nhất là chuẩn hóa tất cả hình ảnh của bạn, cả về đào tạo và thử nghiệm, để có cùng độ phân giải. Ngoài ra, nhân vật trong mỗi hình ảnh phải có cùng kích thước. Bạn cũng nên sử dụng hình ảnh màu xám, vì vậy mỗi pixel sẽ cung cấp cho bạn chỉ một số. Sau đó, bạn có thể sử dụng từng giá trị pixel làm một đầu vào cho mạng của mình. Ví dụ: nếu bạn có hình ảnh có kích thước 16x16 pixel, mạng của bạn sẽ có 16 * 16 = 256 nơron đầu vào. Tế bào thần kinh đầu tiên sẽ thấy giá trị của điểm ảnh tại (0,0), điểm ảnh thứ hai tại (0,1), v.v. Về cơ bản, bạn đặt các giá trị hình ảnh vào một vector và nạp vectơ này vào mạng. Điều này nên đã làm việc.
Bằng cách trích xuất các tính năng đầu tiên (ví dụ: cạnh) từ hình ảnh và sau đó sử dụng mạng trên các tính năng đó, bạn có thể tăng tốc độ học tập và cũng giúp phát hiện mạnh mẽ hơn. Những gì bạn làm trong trường hợp đó là kết hợp kiến thức trước. Để nhận dạng ký tự, bạn biết một số tính năng liên quan. Vì vậy, bằng cách giải nén chúng như là một bước tiền xử lý, mạng không phải học các tính năng đó. Tuy nhiên, nếu bạn cung cấp sai, tức là các tính năng không liên quan, mạng sẽ không thể tìm hiểu hình ảnh -> ánh xạ ký tự.
Bạn đã có neuronet chưa? Nếu không - đây là một câu hỏi lạ. Nếu có - đăng giao diện ít nhất. –
Nó không phải là một câu hỏi lạ. Trên thực tế, nếu tôi có một giao diện, sau đó nó có nghĩa là tôi thực hiện đầu tiên một quyết định làm thế nào tôi sẽ đầu vào hình ảnh vào mạng neuro. Câu hỏi đặt ra là - tôi có thể nhập dữ liệu hình ảnh, như chữ A vào một mạng neuro, ngay cả khi nó rất lớn hay nhỏ, hoặc tôi nên chia nó thành một số tham số, để xác định duy nhất chữ cái A! – Dzen
Nếu tôi nên chia nhỏ thông số, loại thông số nào tôi nên sử dụng? – Dzen