2012-01-22 37 views
6

Trong dự án có một mô-đun lấy URL và xác định xem đó có phải là trang web "Thương mại điện tử" hay "Không phải thương mại điện tử" hay không.Cách tìm kiếm xem url có phải là trang web thương mại điện tử hoặc phi thương mại điện tử không, theo chương trình?

Tôi đã thử phương pháp sau đây:

  1. Sử dụng Apache quản tượng, Phân loại: URL ---> Chụp html bãi ---> quá trình trước bãi html bởi a) loại bỏ tất cả các thẻ html

    b) xóa các từ dừng (hay còn gọi là các từ thông dụng) như CDATA, href, giá trị, và, trong số, giữa các kiểu số

    c) và sau đó kiểm tra.

params sau tôi đã được sử dụng để đào tạo

bin/quản tượng trainclassifier \ -i đào tạo-data \ -o Bayes-mô hình \> -type Bayes -ng 1

Thử nghiệm:

/bin/mahout testclassifier \ 
    -d test-data \ 
    -m bayes-model \ 
    -type bayes -source hdfs -ng 1 -method sequential 

Độ chính xác tôi nhận được là 73% và với thuật toán cbayes nhận 52%.

Tôi đang suy nghĩ để cải thiện giai đoạn xử lý trước bằng cách trích xuất thông tin được tìm thấy trong trang web thương mại điện tử như "Nút thanh toán", "liên kết thanh toán", "Giá/biểu tượng đô la", văn bản như "Tiền mặt khi giao hàng", "30 ngày gurantee "vv

Bất kỳ đề xuất nào về cách trích xuất thông tin này hoặc bất kỳ cách nào khác để dự đoán trang web dưới dạng Thương mại điện tử hoặc Thương mại điện tử?

+2

Vui lòng định dạng câu hỏi của bạn vào lần sau cẩn thận hơn một chút. Và btw 70% chính xác là khá tốt cho sự khởi đầu. –

Trả lời

1

Tôi rất ngạc nhiên khi bạn nhận được độ chính xác cao như vậy chỉ với trích xuất html thuần túy và bộ phân loại bayes.

Nhưng dường như bạn đang đi đúng hướng với các tính năng như nút thanh toán và giá cả.

Dưới đây là một bài báo tôi thấy ngày hôm qua khi đọc về Yandex:

"To find out or to buy? Product review vs. Web shop classifier"

Đó là về làm thế nào để phân biệt hai trang web này và một số kỹ thuật mà họ sử dụng. Họ cũng sử dụng SVM thay vì vịnh ngây thơ.

+0

Cảm ơn thomas. Giấy đang nhắm đến trường hợp sử dụng tương tự như trường hợp của chúng tôi. – geek

Các vấn đề liên quan