2011-01-01 52 views
5

Có công cụ tìm kiếm nào, điều đó có cho phép tôi tìm kiếm bằng cụm từ thông dụng không?công cụ tìm kiếm biểu thức chính quy

+0

Chỉ có thể thực hiện các lớp nhân vật. –

+0

Điều này sẽ tốt đẹp, nhưng tìm kiếm regex không cho phép lập chỉ mục hiệu quả và sẽ dẫn đến tìm kiếm tuyến tính của hàng nghìn tỷ trang trên Internet. Tuy nhiên, các danh mục nhỏ hơn như các bài viết trên một trang web cụ thể hoặc các bài đăng trên StackOverflow có thể được thực hiện. – Vortico

+0

[stackse] (http://stackse.com/) – ren

Trả lời

3

Google Code Search cho phép bạn tìm kiếm bằng cụm từ thông dụng.

Theo như tôi biết, không có công cụ tìm kiếm nào tồn tại cho các tìm kiếm chung.

+2

Lưu ý rằng Google Code Search đang được gỡ bỏ. – MetaEd

+0

Hầu hết các câu trả lời cho câu hỏi này hiện đã lỗi thời. [Tìm kiếm trên web của Google cũng hỗ trợ các cụm từ thông dụng] (http://webapps.stackexchange.com/a/82769/20087) ngay bây giờ. –

1

Có một số vấn đề với cụm từ thông dụng mà hiện tại cấm sử dụng chúng trong các tình huống thực tế. Nhấn mạnh nhất sẽ là toàn bộ Internet được lưu trong bộ nhớ cache sẽ phải phù hợp với regex của bạn, điều này sẽ mang lại nguồn tài nguyên máy tính đáng kể; chỉ mục khá nhiều vô ích trong bối cảnh regex có vẻ như, do regexes có khả năng không bị ràng buộc (/ fo * bar /).

1

Tôi không có công cụ cụ thể để đề xuất.

Tuy nhiên, nếu bạn có thể sống với một tập con cú pháp regex, công cụ tìm kiếm có thể lưu trữ mã thông báo bổ sung để đối sánh hiệu quả các biểu thức khá phức tạp. Solr/Lucene cho phép mã thông báo tùy chỉnh, trong đó cùng một từ có thể tạo nhiều thẻ và với các bộ quy tắc khác nhau.

Tôi sẽ sử dụng tên của mình làm ví dụ: "Đánh dấu điểm."

Trường hợp không nhạy cảm với xuất phát: (nhãn hiệu, nhãn hiệu, tại chỗ)

Trường hợp nhạy cảm không có bắt nguồn: (Mác, nhãn hiệu, tại chỗ)

Trường hợp nhạy cảm với sự mở rộng NLP từ điển đồng nghĩa: ([Mark, Marc] , [đánh dấu, cho biết, đến điểm], [vị trí, vị trí, vị trí, đèn hiệu, tọa độ])

Và bây giờ phát triển theo câu hỏi của bạn, không phân biệt chữ hoa chữ thường, viết hoa, dedupe, khớp tiền tố tự động hoàn thành: ([m, ma , mar, mark], [s, sp, spo, spot])

Và nếu bạn muốn "chuỗi con" phong cách phù hợp với nó sẽ là: ([m, ma, mar, đánh dấu, a, ar, hòm, r, rk, k], [s, sp, spo, tại chỗ, p, po, nồi , o, ot, t])

Một tìm kiếm duy nhất Chỉ mục chứa tất cả các loại mã thông báo khác nhau này và chọn loại nào để sử dụng cho từng loại tìm kiếm.

Hãy thử các từ "Missippi" với một phong cách regex với thẻ chữ: [m, m ?, m +, i, i ?, i +, s, ss, s +, ss + ...], vv

Các quy tắc thực tế sẽ phụ thuộc vào tập hợp con regex, nhưng hy vọng mô hình đang trở nên rõ ràng hơn. Bạn sẽ mở rộng hơn nữa để phù hợp với các phân đoạn regex khác, và sau đó sử dụng một dạng tìm kiếm cụm từ để định vị các kết quả phù hợp.

Tất nhiên chỉ mục sẽ khá lớn, NHƯNG nó có thể đáng giá, tùy thuộc vào yêu cầu của dự án. Và bạn cũng cần một trình phân tích truy vấn và logic ứng dụng.

Tôi nhận ra nếu bạn đang tìm kiếm động cơ đóng hộp, điều này không làm được, nhưng về lý thuyết thì đây là cách tôi tiếp cận nó (giả sử nó thực sự là một yêu cầu!). Nếu tất cả ai đó muốn là kết hợp chuỗi con và khớp với ký tự đại diện linh hoạt, bạn có thể lấy đi ít mã thông báo hơn trong chỉ mục.

Về mặt ứng dụng được đóng hộp, bạn có thể kiểm tra OpenGrok, được sử dụng để lập chỉ mục mã nguồn, không phải là regex đầy đủ, nhưng hiểu mã nguồn khá tốt.

0

http://www.google.com/codesearch đã bị đóng cửa ...

tìm kiếm biểu hiện thường xuyên mất nguồn lực nhiều và do đó không phải là đủ khả năng của các công cụ tìm kiếm phổ biến.

0

Globalogiq có HTML Source Code Search nơi bạn có thể tìm kiếm bằng cụm từ thông dụng. Nó không phải là miễn phí mặc dù.

1

Nếu regex chiếm quá nhiều tài nguyên, tại sao không tính phí sử dụng bằng cputime thay vì làm cho nó hoàn toàn không khả dụng? Tôi chắc chắn một số người sẽ trả tiền và sử dụng nó (và tất nhiên cung cấp một lời giải thích cho phí, giải thích về mặt carbon và tài nguyên CPU). Google hỗ trợ mở rộng * trong các tìm kiếm *go hoặc go* hoặc intitle: "*go" tại đây là: http://www.hackcollege.com/blog/2011/11/23/infographic-get-more-out-of-google.html

Các vấn đề liên quan