7

Tôi đang sử dụng khởi động v3 và tensorflow để xác định một số đối tượng trong hình ảnh. Tuy nhiên, nó chỉ tạo ra một danh sách các đối tượng có thể và tôi cần nó để thông báo vị trí của chúng trong hình ảnh.Cách tạo các hộp giới hạn xung quanh ROIs bằng cách sử dụng TensorFlow

tôi sau những bông hoa hướng dẫn: https://www.tensorflow.org/versions/r0.9/how_tos/image_retraining/index.html

bazel-bin/tensorflow/ví dụ/image_retraining/đào tạo lại --image_dir ~/flower_photos

Trả lời

6

Inception là một mạng lưới phân loại, không một mạng nội địa hoá.

Bạn cần kiến ​​trúc khác để dự đoán các hộp giới hạn, như R-CNN và các biến thể mới hơn (và nhanh hơn) của nó (Fast R-CNN, R-CNN nhanh hơn). Tùy chọn, nếu bạn muốn sử dụng khởi tạo và bạn có một tập huấn được chú thích với lớp và tọa độ hộp giới hạn, bạn có thể thêm đầu hồi quy vào lúc khởi động và làm cho mạng tìm hiểu để điều chỉnh các tọa độ hộp giới hạn. Cũng giống như học chuyển tiếp, nhưng bạn chỉ cần sử dụng đầu ra lớp chập chùng cuối cùng làm bộ tách tính năng và đào tạo đầu mới này để phục hồi 4 tọa độ + 1 lớp cho mỗi hộp giới hạn trong tập huấn luyện của bạn.

2

Theo mặc định, không có tọa độ đầu ra. Có những công cụ cụ thể cho rằng như nhanh hơn R-CNN có sẵn cho Caffe.

Nếu bạn muốn gắn bó với lưu lượng, bạn có thể đào tạo lại để khởi tạo tọa độ nếu bạn có hình ảnh được chú thích của con người.

2

Đặt các hộp giới hạn xung quanh các đối tượng thường được gọi là phát hiện trong lô tô của trường và có toàn bộ danh mục mạng được thiết kế cho nó. Có một danh mục riêng biệt trong số PASCAL VOC competition để phát hiện và đó là một nơi tốt để tìm các mạng phát hiện tốt

Mạng phát hiện yêu thích của tôi (bộ dẫn hiện tại cho tập dữ liệu PASCAL 2012) là YOLO, bắt đầu bằng trình phân loại điển hình , nhưng sau đó có một số lớp bổ sung để hỗ trợ các hộp giới hạn. Thay vì chỉ trở lại một lớp, nó tạo ra phiên bản được rút gọn của hình ảnh gốc, trong đó mỗi pixel có lớp riêng của nó. Sau đó, nó có một lớp hồi quy dự đoán chính xác vị trí và kích thước của các hộp giới hạn. Bạn có thể bắt đầu với một trình phân loại được đào tạo trước, và sau đó sửa đổi nó thành một mạng YOLO và đào tạo lại nó. Quy trình này được mô tả trong the original paper about YOLO

Tôi thích YOLO vì nó có cấu trúc đơn giản, so với các mạng phát hiện khác, nó cho phép bạn sử dụng học chuyển từ mạng phân loại (dễ đào tạo hơn) và tốc độ phát hiện rất nhanh. Nó thực sự được phát triển để phát hiện thời gian thực trong video.

Có một implementation of YOLO in TensorFlow, nếu bạn muốn tránh sử dụng khung tùy chỉnh darknet được các tác giả của YOLO sử dụng.

Các vấn đề liên quan