6

Được biết nVidia DetectNet - CNN (mạng nơron xoắn) để phát hiện đối tượng dựa trên cách tiếp cận từ Yolo/DenseBox: https://devblogs.nvidia.com/parallelforall/deep-learning-object-detection-digits/CNN hiện đại (mạng thần kinh xoắn ốc) có phải DetectNet xoay bất biến?

DetectNet là một phần mở rộng của mạng GoogLeNet phổ biến. Các tiện ích mở rộng tương tự như cách tiếp cận được thực hiện trong các giấy tờ Yolo và DenseBox .

Và như thể hiện ở đây, DetectNet có thể phát hiện các đối tượng (ô tô) với bất kỳ phép quay: https://devblogs.nvidia.com/parallelforall/detectnet-deep-neural-network-object-detection-digits/

enter image description here

Are CNN (xoắn mạng thần kinh) như DetectNet hiện đại xoay bất biến?

Tôi có thể đào tạo DetectNet trên hàng nghìn hình ảnh khác nhau với cùng một góc quay của vật thể, để phát hiện vật thể trên mọi góc quay không?

enter image description here

Và những gì về bất biến xoay của: Yolo, Yolo v2, DenseBox mà dựa DetectNet?

Trả lời

3

Không

CNN không xoay bất biến. Bạn cần phải bao gồm trong hình ảnh tập luyện của bạn với mỗi vòng quay có thể. Bạn có thể đào tạo một CNN để phân loại hình ảnh thành các thể loại được xác định trước (nếu bạn muốn phát hiện một số đối tượng trong một hình ảnh như trong ví dụ của bạn, bạn cần phải quét mọi nơi của một hình ảnh với bộ phân loại của bạn).

CNN là bất biến đối với các chuyển động ngang hoặc dọc nhỏ trong dữ liệu đào tạo của bạn.

+0

Bạn đang nói về cách tiếp cận cửa sổ trượt? – mrgloom

+0

@mrgloom. Nó không có gì để làm với cửa sổ trượt. – Kershaw

+0

@Kershaw 'quét mọi vị trí của hình ảnh với trình phân loại của bạn'? – mrgloom

1

Thêm vào câu trả lời của Rob, nói chung CNN là bản dịch bất biến, nhưng không xoay vòng và chia tỷ lệ. Tuy nhiên, không bắt buộc phải bao gồm tất cả các phép quay có thể vào dữ liệu huấn luyện của bạn. Một lớp gộp tối đa sẽ giới thiệu bất biến xoay.

This image được đăng bởi Franck Dernoncourt here có thể là những gì bạn đang tìm kiếm.

Thứ hai, liên quan đến bình luận Kershaw về câu trả lời của Rob mà nói:

Một CNN là bất biến để phong trào ngang hoặc dọc nhỏ trong dữ liệu huấn luyện của bạn chủ yếu là do tổng hợp tối đa.

Lý do chính CNN là bất biến dịch là chuyển chập. Bộ lọc sẽ trích xuất đối tượng địa lý bất kể nó ở đâu trong hình ảnh vì bộ lọc sẽ di chuyển trên toàn bộ hình ảnh. Đó là khi hình ảnh được xoay hoặc thu nhỏ mà bộ lọc sẽ thất bại vì sự khác biệt về biểu diễn pixel của các đối tượng địa lý.

Nguồn: Câu trả lời của Aditya Kumar Praharaj từ this link.

Các vấn đề liên quan