2017-07-29 49 views
5

Tôi muốn hiểu ý nghĩa của "chiều kích" trong nhúng từ.chiều kích trong nhúng từ là gì?

Khi tôi nhúng một từ ở dạng ma trận cho các tác vụ NLP, vai trò nào có chiều hướng phát? Có một ví dụ trực quan nào có thể giúp tôi hiểu khái niệm này không?

+0

Xem tại đây: https://stackoverflow.com/questions/38137551/what-is-word-vector-dimension – polm23

Trả lời

1

Tôi không phải là chuyên gia, nhưng tôi nghĩ kích thước chỉ đại diện cho các biến (còn gọi là thuộc tính hoặc tính năng) đã được gán cho các từ, mặc dù có thể có nhiều hơn thế. Ý nghĩa của từng thứ nguyên và tổng số thứ nguyên sẽ cụ thể cho mô hình của bạn.

Gần đây tôi thấy điều này hình dung nhúng từ thư viện tensor Lưu lượng: https://www.tensorflow.org/get_started/embedding_viz

này đặc biệt giúp làm giảm mô hình chiều cao xuống một cái gì đó con người cảm nhận. Nếu bạn có nhiều hơn ba biến thì sẽ rất khó để hình dung cụm (trừ khi bạn là Stephen Hawking).

wikipedia article on dimensional reduction và các trang liên quan này thảo luận cách các tính năng được thể hiện trong các thứ nguyên và các vấn đề về quá nhiều.

2

Các từ nhúng như word2vec hoặc GloVe không nhúng các từ trong ma trận hai chiều, chúng sử dụng các vector một chiều. "Thứ nguyên" đề cập đến kích thước của các vectơ này. Nó là riêng biệt với kích thước của từ vựng, đó là số từ bạn thực sự giữ vectơ thay vì chỉ ném ra ngoài.

Trong lý thuyết, các vectơ lớn hơn có thể lưu trữ nhiều thông tin hơn vì chúng có nhiều trạng thái hơn. Trong thực tế, không có nhiều lợi ích vượt quá kích thước 300-500, và trong một số ứng dụng, các vectơ nhỏ hơn cũng hoạt động tốt.

Đây là hình ảnh từ GloVe homepage.

word vector visualization

Thứ nguyên của vectơ được hiển thị trên trục trái; giảm nó sẽ làm cho đồ thị ngắn hơn, ví dụ. Mỗi cột là một vectơ riêng biệt với màu sắc ở mỗi pixel được xác định bởi số ở vị trí đó trong vectơ.

Các vấn đề liên quan