2012-10-09 69 views
5

Tôi cần sự trợ giúp của bạn về trọng số trong Weka. Tôi đang chạy một số thử nghiệm trên quy mô lớn dữ liệu: Tôi đang dịch dữ liệu thành các phiên bản và sử dụng các trình phân loại khác nhau để nghiên cứu. Bây giờ tôi muốn kiểm tra xem làm thế nào entitling trọng lượng cho các trường hợp ảnh hưởng đến việc học tập, đôi khi tôi muốn cho phép một trường hợp với trọng lượng và đôi khi không. Câu hỏi của tôi là:Cách sử dụng trọng số trong Weka

  1. Phạm vi của trọng số có thể là bao nhiêu?
  2. Hiệu ứng của trọng số có khác với phân loại đến trình phân loại không?
  3. Có trọng lượng mặc định không (tôi thấy một nơi nào đó có thể là 1 nhưng tôi muốn đảm bảo nó)?
  4. Bất kỳ tham chiếu đến thông tin liên quan sẽ được đánh giá :)

Trả lời

7

Câu trả lời cho câu hỏi 2 là "có", và điều đó cũng ảnh hưởng đến câu trả lời cho câu hỏi 1. Về cơ bản, Weka chỉ vượt qua trọng vào thực tế thuật toán phân loại. Phạm vi của trọng số cho phép và cách chúng được sử dụng phụ thuộc hoàn toàn vào việc triển khai bộ phân loại. Về câu hỏi 3, trọng số mặc định sẽ cung cấp cho trọng lượng bằng nhau cho tất cả các trường hợp, số thực tế không quan trọng.

Ví dụ: trình phân loại lân cận gần nhất bỏ qua trọng số hoàn toàn, mặc dù nó sẽ vui vẻ lấy bất kỳ giá trị trọng số nào. Về lý thuyết, các bộ phân loại lân cận gần nhất có thể được thực hiện để cân nhắc trọng số, nhưng cái này không có. Vì vậy, câu trả lời cho câu hỏi 2 sẽ là nó thực sự phụ thuộc vào việc thực hiện cụ thể của classifier thậm chí nhiều hơn so với thuật toán phân loại.

1

tôi có thể tạo một tập tin XRFF với nội dung sau:

<dataset name="Weka" version="3.7.13-SNAPSHOT"> 
    <header> 
     <attributes> 
     <attribute name="Nombre" type="nominal"> 
      <labels> 
       <label>Alcohol</label> 
       <label>Opioides</label> 
       <label>Cannabinoides</label> 
       <label>Benzodiacepinas</label> 
       <label>Cocaina</label> 
       <label>Anfetaminas_y_derivados</label> 
      </labels> 
      <metadata> 
        <property name="weight">0.2</property> 
      </metadata> 
     </attribute> 
     <attribute name="Tendencia_a_discutir" type="nominal"> 
      <labels> 
       <label>No</label> 
       <label>Yes</label> 
      </labels> 
      <metadata> 
        <property name="weight">0.5</property> 
      </metadata> 
     </attribute> 
     <attribute name="Agresion" type="nominal"> 
      <labels> 
       <label>No</label> 
       <label>Yes</label> 
      </labels> 
      <metadata> 
        <property name="weight">0.5</property> 
      </metadata> 
     </attribute> 
. 
. 
. 
     <instance> 
      <value>Anfetaminas_y_derivados</value> 
      <value>Yes</value> 
      <value>Yes</value> 
      <value>Yes</value> 
      <value>No</value> 
      <value>No</value> 
      <value>Yes</value> 
      <value>No</value> 
      <value>No</value> 
      <value>No</value> 
      <value>No</value> 
      <value>Yes</value> 
      <value>No</value> 
      <value>No</value> 
      <value>No</value> 
      <value>No</value> 
      <value>Yes</value> 
      <value>Yes</value> 
      <value>No</value> 
      <value>No</value> 
      <value>Yes</value> 
      <value>No</value> 
      <value>No</value> 
      <value>Yes</value> 
      <value>Yes</value> 
      <value>Yes</value> 
      <value>Yes</value> 
      <value>No</value> 
      <value>No</value> 
      <value>No</value> 
      <value>No</value> 
      <value>No</value> 
      <value>No</value> 
      <value>No</value> 
      <value>No</value> 
      <value>No</value> 
      <value>No</value> 
      <value>No</value> 
      <value>No</value> 
      <value>Yes</value> 
      <value>No</value> 
      <value>Yes</value> 
      <value>Yes</value> 
      <value>Yes</value> 
      <value>Yes</value> 
      <value>Yes</value> 
      <value>Yes</value> 
      <value>Yes</value> 
      <value>Yes</value> 
      <value>Yes</value> 
      <value>Yes</value> 
      <value>Yes</value> 
     </instance> 
     </instances> 
    </body> 
</dataset> 

Nhưng tôi có thể thấy nếu Weka đang sử dụng các trọng khi tôi áp dụng NaivesBayes. Sau đây tôi đề xuất sửa đổi mã của thuật toán AttributeSelectedClassifier để sử dụng trọng số.

Các vấn đề liên quan