Trong dự án có một mô-đun lấy URL và xác định xem đó có phải là trang web "Thương mại điện tử" hay "Không phải thương mại điện tử" hay không.Cách tìm kiếm xem url có phải là trang web thương mại điện tử hoặc phi thương mại điện tử không, theo chương trình?
Tôi đã thử phương pháp sau đây:
Sử dụng Apache quản tượng, Phân loại: URL ---> Chụp html bãi ---> quá trình trước bãi html bởi a) loại bỏ tất cả các thẻ html
b) xóa các từ dừng (hay còn gọi là các từ thông dụng) như CDATA, href, giá trị, và, trong số, giữa các kiểu số
c) và sau đó kiểm tra.
params sau tôi đã được sử dụng để đào tạo
bin/quản tượng trainclassifier \ -i đào tạo-data \ -o Bayes-mô hình \> -type Bayes -ng 1
Thử nghiệm:
/bin/mahout testclassifier \
-d test-data \
-m bayes-model \
-type bayes -source hdfs -ng 1 -method sequential
Độ chính xác tôi nhận được là 73% và với thuật toán cbayes nhận 52%.
Tôi đang suy nghĩ để cải thiện giai đoạn xử lý trước bằng cách trích xuất thông tin được tìm thấy trong trang web thương mại điện tử như "Nút thanh toán", "liên kết thanh toán", "Giá/biểu tượng đô la", văn bản như "Tiền mặt khi giao hàng", "30 ngày gurantee "vv
Bất kỳ đề xuất nào về cách trích xuất thông tin này hoặc bất kỳ cách nào khác để dự đoán trang web dưới dạng Thương mại điện tử hoặc Thương mại điện tử?
Vui lòng định dạng câu hỏi của bạn vào lần sau cẩn thận hơn một chút. Và btw 70% chính xác là khá tốt cho sự khởi đầu. –