Nếu bạn sử dụng trình phân loại tầng để phát hiện mắt phải, mắt trái và mũi, hãy tính trọng tâm của mỗi đối tượng địa lý (tính năng x/2, tính năng y/2) điều này sẽ cho bạn ba điểm x-y trên hình ảnh của bạn.
Bạn có thể phát hiện cuộn bằng cách xem giá trị Y của mỗi mắt, nếu giá trị cao hơn giá trị kia, có nghĩa là đầu nghiêng theo hướng giá trị Y thấp nhất (khi một mắt di chuyển lên giá trị Y khác)
Bạn có thể phát hiện ngáp bằng cách nhìn vào giá trị X của mũi, nếu người dùng nhìn sang trái, giá trị X của mũi của họ sẽ gần với giá trị X của mắt trái hơn, và giống như nhìn sang bên phải ở bên phải giá trị X của mắt.
Bạn có thể phát hiện quảng cáo chiêu hàng bằng cách xem giá trị Y của mũi, nếu người dùng nhìn lên, giá trị Y sẽ gần hơn với cả giá trị Y của mắt và nếu họ nhìn xuống, giá trị Y sẽ xa hơn giá trị mắt.
Bây giờ tất nhiên là không chính xác và sẽ không cung cấp cho bạn góc chính xác, tuy nhiên bạn có thể sử dụng thông tin này để thử và phân loại từng giá trị trong một số nhóm nhất định (nhìn về phía trước, nhìn bên trái, tìm thực sự bên trái)
Điều duy nhất tôi có thể thấy ảnh hưởng đến việc bạn tính cả ba trong một hình ảnh có thể là nếu cuộn tính toán khá mạnh, có thể phiền phức vì trục X không còn phẳng nữa.
Bạn có thể giải quyết vấn đề này bằng cách sửa hình ảnh thông qua xoay vòng 2D. Bạn sẽ cần phải tìm bao nhiêu hình ảnh cần phải được luân chuyển với
Value = (right eye Y/2) - (left eye Y/2)
Với thông tin này, bạn có thể sửa hình ảnh và tiếp tục với chế biến (để xoay hình ảnh nhìn lên tạo ra một ma trận xoay 2D và sử dụng warp affine)
Xin lỗi nếu điều này là một chút của một hoại nhưng tôi thấy các phương pháp trên là khá thành công và tôi hy vọng nó giúp một ai đó
Đây không phải là C++ câu hỏi vì vậy tôi lấy thẻ đó. –