Tôi đang tìm phương pháp phân loại các trang được quét bao gồm phần lớn văn bản.Phân loại hình ảnh trong python
Dưới đây là các chi tiết cụ thể của sự cố của tôi. Tôi có một bộ sưu tập lớn các tài liệu được quét và cần phát hiện sự hiện diện của một số loại trang nhất định trong các tài liệu này. Tôi có kế hoạch "bùng nổ" các tài liệu vào các trang thành phần của chúng (mỗi trang trong số đó là một hình ảnh riêng lẻ) và phân loại từng hình ảnh này là "A" hoặc "B". Nhưng tôi không thể tìm ra cách tốt nhất để làm điều này.
Thông tin chi tiết:
- tôi có rất nhiều ví dụ về "A" và "B" hình ảnh (trang), vì vậy tôi có thể làm học có giám sát.
- Nó không rõ ràng với tôi làm thế nào để trích xuất tốt nhất các tính năng từ những hình ảnh này cho đào tạo. Ví dụ. Các tính năng đó là gì?
- Các trang đôi khi được xoay nhẹ, vì vậy sẽ rất tuyệt nếu phân loại hơi không nhạy cảm với việc xoay vòng và (ở mức độ thấp hơn).
- Tôi muốn một giải pháp đa nền tảng, lý tưởng trong python tinh khiết hoặc sử dụng các thư viện phổ biến.
- Tôi đã nghĩ về việc sử dụng OpenCV, nhưng điều này có vẻ giống như một giải pháp "nặng".
EDIT:
- Các "A" và "B" trang khác nhau ở chỗ "B" trang có các hình thức trên chúng với cấu trúc chung giống nhau, trong đó có sự hiện diện của một mã vạch. Các trang "A" là văn bản miễn phí.
Chúng khác nhau như thế nào? Phông chữ? Kích thước? Bạn có thể chỉ OCR một phần của nó (một tiêu đề hoặc tác giả trong một tiêu đề?) –
Nick, tôi đã thêm một chỉnh sửa để làm rõ về điều đó. Trên thực tế, mục tiêu của tôi là vứt bỏ mọi thứ * sau * các trang B vì tôi không phải OCR chúng. Vì vậy, tôi thực sự cần phải phát hiện chúng trước khi thực hiện bất kỳ OCR nào. – Kyle
Đây là một vấn đề khá khó khăn - trừ khi bộ sưu tập của bạn thật sự to lớn, sẽ không dễ dàng hơn khi chỉ phân loại các trang theo cách thủ công là 'A' hoặc' B'? Bạn có thể viết một ứng dụng GUI nhỏ để hiển thị chúng lần lượt để bạn có thể chỉ cần nhấn một phím trên mỗi trang. – katrielalex