2009-11-24 28 views
75

Khi nào tôi nên sử dụng?sự khác biệt thực sự giữa lemmatization vs bắt nguồn là gì?

Ngoài ra ... là việc sử dụng NLTK phụ thuộc vào các phần của bài phát biểu? Nó sẽ không chính xác hơn nếu nó là?

+1

Đây là cách trên đầu của tôi, nhưng tại sao lại có một thẻ python? – Jimmy

+4

@jimmy: được gắn thẻ python b/c nó đang nói về thư viện nltk python – ealdent

+1

Đây là một bài viết tuyệt vời trả lời chính xác câu hỏi này (http://www.ideaeng.com/tabId/98/itemId/180/Whats-the -Difference-Between-Stemming-and-Lemmati.aspx) – Jacob

Trả lời

80

ngắn và dày đặc: http://nlp.stanford.edu/IR-book/html/htmledition/stemming-and-lemmatization-1.html

Mục tiêu của cả hai bắt nguồn và lemmatization là giảm hình thức inflectional và các hình thức đôi khi derivationally liên quan của một từ mẫu cơ sở chung.

Tuy nhiên, hai từ khác nhau về hương vị của chúng. Stemming thường đề cập đến một quá trình heuristic thô mà cắt ra các kết thúc của các từ với hy vọng đạt được mục tiêu này một cách chính xác hầu hết thời gian, và thường bao gồm việc loại bỏ các affixes phái sinh. Lemmatization thường đề cập đến việc làm đúng với việc sử dụng một từ vựng và phân tích hình thái của các từ, thường nhằm loại bỏ kết thúc uốn chỉ và trả lại cơ sở hoặc từ điển hình thức của một từ, được gọi là Bổ đề.

Từ các tài liệu NLTK:

Lemmatization và bắt nguồn là trường hợp đặc biệt của bình thường. Họ xác định một đại diện kinh điển cho một tập hợp các mẫu từ liên quan.

1

ianacl
nhưng tôi nghĩ Xuất phát là một hack thô mọi người sử dụng để có được tất cả các hình thức khác nhau của cùng một từ xuống đến một hình thức cơ bản mà không cần phải là một từ legit tự
Something của nó như Porter Stemmer có thể sử dụng các regex đơn giản để loại bỏ các hậu tố từ thông dụng

Lemmatization mang một từ xuống dạng cơ sở thực tế của nó. danh từ và động từ đến dạng cơ sở của chúng

+0

Tôi nghĩ rằng Porter Stemmer được triển khai mà không cần truy đòi vào Regular Expressions, bởi vì nhiều ngôn ngữ cũ không có chúng, nhưng nếu không bạn có ý tưởng đúng. –

10

Như MYYN đã chỉ ra, bắt nguồn từ là quá trình loại bỏ các ràng buộc uốn và đôi khi phái sinh thành dạng cơ sở mà tất cả các từ gốc có thể liên quan đến. Lemmatization là có liên quan với việc thu thập các từ duy nhất cho phép bạn nhóm lại với nhau một loạt các hình thức inflected. Điều này là khó hơn so với gốc vì nó đòi hỏi phải đưa bối cảnh vào tài khoản (và do đó ý nghĩa của từ), trong khi bắt nguồn từ bỏ ngữ cảnh.

Đối với thời điểm bạn sẽ sử dụng cái này hay cái kia, đó là vấn đề bao nhiêu ứng dụng của bạn phụ thuộc vào ý nghĩa của một từ trong ngữ cảnh chính xác. Nếu bạn đang dịch máy, bạn có thể muốn lemmatization để tránh mistranslating một từ. Nếu bạn đang thực hiện truy xuất thông tin trên một tỷ tài liệu với 99% truy vấn của bạn, từ 1-3 từ, bạn có thể giải quyết để bắt đầu.

Đối với NLTK, WordNetLemmatizer sử dụng một phần của lời nói, mặc dù bạn phải cung cấp nó (nếu không nó sẽ mặc định là danh từ). Vượt qua nó "chim bồ câu" và "v" sản lượng "lặn" trong khi "chim bồ câu" và "n" sản lượng "chim bồ câu".

11

Mục đích của cả hai gốc và lemmatization là để giảm biến thể hình thái. Điều này trái ngược với các thủ tục "conflation" tổng quát hơn, mà cũng có thể giải quyết các biến thể lexico-ngữ nghĩa, cú pháp, hoặc orthographic.

Sự khác biệt thực sự giữa bắt nguồn và lemmatization có ba điểm:

  1. Xuất phát giảm word-hình thức để (giả) xuất phát, trong khi lemmatization giảm word-hình thức để bổ đề ngôn ngữ hợp lệ. Sự khác biệt này rõ ràng ở các ngôn ngữ có hình thái phức tạp hơn, nhưng có thể không liên quan đến nhiều ứng dụng IR;

  2. Ưu đãi chỉ áp dụng với phương sai uốn, trong khi gốc cũng có thể đối phó với phương sai phái sinh;

  3. Về mặt thực hiện, sự lemmatization thường phức tạp hơn (đặc biệt là đối với các ngôn ngữ hình thái phức tạp) và thường đòi hỏi một số loại lexica. Mặt khác, sự đáp ứng có thể đạt được với các phương pháp dựa trên quy tắc khá đơn giản.

Làm mờ cũng có thể được sao lưu bằng trình gắn thẻ một phần lời nói để phân biệt các từ đồng nghĩa.

36

Lemmatisation liên quan chặt chẽ đến bắt nguồn. Sự khác biệt là một máy phát gốc hoạt động trên một từ duy nhất mà không có hiểu biết về ngữ cảnh, và do đó không thể phân biệt đối xử giữa các từ có ý nghĩa khác nhau tùy thuộc vào một phần của lời nói. Tuy nhiên, stemmers thường là dễ dàng hơn để thực hiện và chạy nhanh hơn, và độ chính xác giảm có thể không vấn đề đối với một số ứng dụng.

Ví dụ:

  1. Từ "tốt hơn" có "tốt" như Bổ đề của nó. Liên kết này bị mất bởi bắt nguồn từ vì nó yêu cầu tra cứu từ điển.

  2. Từ "đi bộ" là biểu mẫu cơ sở cho từ "đi bộ" và do đó, này phù hợp với cả xuất phát và từ ngữ.

  3. Từ "cuộc họp" có thể là một trong hai hình thức cơ bản của một danh từ hay một hình thức của một động từ ("để đáp ứng") tùy thuộc vào bối cảnh, ví dụ như, "trong cuộc họp cuối cùng của chúng tôi" hoặc "Chúng tôi gặp lại vào ngày mai ". Không giống như bắt nguồn, sự lemmatisation về nguyên tắc có thể chọn bổ đề thích hợp tùy thuộc vào ngữ cảnh.

Nguồn: https://en.wikipedia.org/wiki/Lemmatisation

5

Một ví dụ-driven lời giải thích trên differenes giữa lemmatization và bắt nguồn:

Lemmatization xử lý phù hợp với “xe” thành “xe” cùng với "xe hơi" khớp với "ô tô".

Xuất phát xử lý khớp "xe" với "ô tô".

Phủ nhận ngụ ý phạm vi kết hợp từ mờ rộng hơn là vẫn được xử lý bởi cùng hệ thống con. Nó ngụ ý một số kỹ thuật nhất định để xử lý ở mức độ thấp bên trong động cơ và cũng có thể phản ánh tùy chọn kỹ thuật của về thuật ngữ.

[...] Lấy NHANH làm ví dụ, cơ lemmatization họ xử lý không chỉ biến thể từ cơ bản như số ít so với số nhiều, mà còn khai thác từ điển đồng nghĩa giống như có “nóng” trận đấu “ấm áp”. Điều này không có nghĩa là các công cụ khác không xử lý các từ đồng nghĩa, dĩ nhiên là chúng thực hiện, nhưng việc triển khai ở mức độ thấp có thể nằm trong một hệ thống con khác nhau là so với các công cụ xử lý cơ sở gốc.

http://www.ideaeng.com/stemming-lemmatization-0601

7

Có hai khía cạnh để thấy sự khác biệt của họ:

  1. Một Stemmer sẽ trả lại gốc của một từ, mà không cần phải là giống hệt nhau vào thư mục gốc của hình thái từ. Nó thường đủ để các từ liên quan ánh xạ tới cùng một gốc, ngay cả khi gốc không phải là một gốc hợp lệ, trong khi trong lemmatisation, nó sẽ trả về dạng từ điển của một từ, đó phải là một từ hợp lệ.

  2. Trong lemmatisation, một phần của bài phát biểu của một từ nên được xác định đầu tiên và các quy tắc bình thường sẽ khác nhau cho phần khác nhau của bài phát biểu, trong khi Stemmer hoạt động trên một từ duy nhất mà không cần kiến ​​thức về bối cảnh, và do đó không thể phân biệt giữa các từ có ý nghĩa khác nhau tùy thuộc vào một phần của lời nói.

Reference http://textminingonline.com/dive-into-nltk-part-iv-stemming-and-lemmatization

Các vấn đề liên quan