2013-07-24 49 views
5

Google tuyên bố rằng một thuật ngữ "thuật ngữ vector" có thể được sử dụng để xác định các từ khóa phổ biến. Tôi đã nghiên cứu http://en.wikipedia.org/wiki/Vector_space_model, nhưng không thể hiểu thuật ngữ "thuật toán vector hạn".Thuật ngữ "thuật ngữ vector" là gì?

Vui lòng giải thích nó trong một bản tóm tắt ngắn gọn, ngôn ngữ rất đơn giản, như thể người đọc là một đứa trẻ.

Tôi tin rằng "vectơ" đề cập đến định nghĩa toán học, số lượng có hướng cũng như độ lớn. Làm thế nào mà các từ khóa có một số lượng di chuyển theo một hướng?

http://en.wikipedia.org/wiki/Vector_space_model tuyên bố "Mỗi thứ nguyên tương ứng với một cụm từ riêng biệt". Tôi nghĩ chiều hướng liên quan đến cardinality, đúng không?

enter image description here

Từ cuốn sách Hadoop Trong thực hành, bởi Alex Holmes, trang 12.

+0

Tôi upvoted câu hỏi của bạn, nhưng tôi nghĩ rằng nó là thích hợp hơn cho [programmers.se] (http://programmers.stackexchange.com) –

+1

Cho T là tập hợp tất cả các thuật ngữ, chẳng hạn như từ khóa trên một trang web . Một vector hạn là một vectơ thưa thớt trong N^| T | trong đó N là số tự nhiên. Mỗi thành phần của vectơ cụm từ có thể cho biết liệu cụm từ đó có xuất hiện trong tìm kiếm hay trang web hay số lần cụm từ đó xuất hiện trong tìm kiếm hoặc trang web. – Paul

Trả lời

8

Nó có nghĩa là mỗi từ tạo thành một không gian riêng biệt:

Ví dụ: (không biết xấu hổ lấy từ here)

Đối với mô hình chỉ chứa ba từ bạn sẽ nhận được:

dict = { dog, cat, lion } 

Document 1 
“cat cat” → (0,2,0) 

Document 2 
“cat cat cat” → (0,3,0) 

Document 3 
“lion cat” → (0,1,1) 

Document 4 
“cat lion” → (0,1,1) 
+0

Vì vậy, vector trong trường hợp này không có nghĩa là số lượng di chuyển theo một hướng? – davidjhp

+0

@davidjhp Không, nó không phải là một vector theo nghĩa hình học. Đó là khái niệm tương tự như một 'std :: vector' nếu bạn biết C++. – Thomas

0

Ví dụ phổ biến nhất cho MapReduce là tính toán tần suất làm việc; cụ thể là, một bước bản đồ để xuất ra từ là khóa với 1 làm giá trị và một bước giảm để tổng hợp các số cho mỗi từ. Vì vậy, nếu một trang web có một danh sách các từ (có thể trùng lặp) xảy ra, mỗi từ trong danh sách đó ánh xạ tới 1. Bước giảm về cơ bản đếm số lần mỗi từ xuất hiện trong trang đó. Bạn có thể thực hiện điều này trên các trang, trang web hoặc bất kỳ tiêu chí nào. Dữ liệu kết quả là một từ ánh xạ từ điển đến tần số, đó là một vector tần số có hiệu quả.

Example document: "a be see be a" 
Resulting data: { 'a':2, 'be':2, 'see':1 } 
0

Cụm từ vector có nghĩa là mỗi cụm từ có trọng số hoặc giá trị số được đính kèm, có thể tương ứng với số lần cụm từ được đề cập. Bạn đang nghĩ về ý nghĩa hình học của vectơ từ nhưng có một ý nghĩa toán học khác có nghĩa là nhiều kích thước tức là thay vì nói x, y, z bạn nói vectơ x in đậm có nhiều kích thước x1, x2, x3 ... xn và một số giá trị. Vì vậy, đối với một vectơ hạn, vectơ là từ và nó có dạng term1, term2 đến n. Sau đó, mỗi giá trị có thể có giá trị, giống như x, y hoặc z có giá trị.

Là một thuật ngữ ví dụ 1 có thể là chó, kỳ 2 mèo, sư tử term3 và mỗi con có trọng số, 2, 3, 1, có nghĩa là con chó xuất hiện hai lần, mèo 3 lần và sư tử 1 lần.

Các vấn đề liên quan