Tôi đang tìm cách triển khai một trình chỉ mục chuyển tiếp đơn giản trong PHP. Có, tôi hiểu rằng PHP không phải là công cụ tốt nhất cho công việc, nhưng tôi vẫn muốn làm điều đó. Lý do đằng sau nó là đơn giản: tôi muốn một, và trong PHP.Làm thế nào người ta có thể đi về việc thực hiện một chỉ số chuyển tiếp trong PHP?
Chúng ta hãy thực hiện một vài giả định cơ bản:
Toàn bộ interweb gồm chừng năm ngàn HTML và/hoặc tài liệu văn bản đơn giản. Mỗi tài liệu nằm trong một miền cụ thể (UID). Không có định dạng độc quyền/đa dạng khác tồn tại trong Interweb cavemanesque tưởng tượng của chúng ta.
Kết quả của thuật toán dựa trên PHP mong indexing tuyệt vời của chúng tôi nên được dọc theo dòng:
UID1 -> index.html -> helen, cô, là, vô địch, với, tàn nhang
UID1 -> foo.html -> gà, nông dân, đi, về nhà, ăn, cừu
UID2 -> blah.html -> tiếp theo, tuần, trên, badgerwatch
UID2 -> gah.txt -> một, một, và, một, là, không, numberwang
Lý tưởng nhất, tôi rất thích xem các giải pháp đưa vào tài khoản, ngay cả ở tiểu học nhất của họ, khái niệm về mã thông báo/ranh giới từ định hướng/gắn thẻ một phần của lời nói. Tất nhiên, tôi nhận thấy đây là mơ tưởng, và do đó sẽ hạ bất kỳ nỗ lực xứng đáng tại phân tích cho biết các văn bản tưởng tượng theo:
- Trích xuất nội dung thứ văn bản thực trong tài liệu như một danh sách các từ theo thứ tự trong số mà chúng được trình bày.
- Đồng thời, bỏ qua mọi rác chẳng hạn như
<script>
và<html>
thẻ để tính toán danh sách UID (có thể là, ví dụ), theo sau là tên tài liệu (tài nguyên trong tên miền) và cuối cùng là danh sách các từ cho tài liệu đó. Tôi nhận ra rằng các thẻ HTML đóng một vai trò quan trọng trong vị trí ngữ nghĩa của văn bản trong một tài liệu, nhưng ở giai đoạn này tôi không quan tâm. - Ghi nhớ một giải pháp có thể xây dựng danh sách của từ WHILE khi đọc tài liệu thì lạnh hơn là cần phải đọc trong toàn bộ tài liệu trước.
Ở giai đoạn này, tôi không quan tâm đến vị trí hoặc lưu trữ của lưu trữ. Ngay cả một tập hợp thô sơ của các câu lệnh 'in' sẽ là đủ.
Xin cảm ơn trước, hy vọng điều này là đủ rõ ràng.
+1 cho văn bản mẫu tuyệt vời – Artelius
Đây có phải là bài tập về nhà của bạn không? Có vẻ như bạn chỉ muốn một trình phân tích cú pháp tệp đơn giản .. – Louis
@Làm bài tập về nhà? Hãy truy cập – karim79