Cơ sở dữ liệu của chúng tôi chứa đầy các bài viết được truy xuất từ nguồn cấp dữ liệu RSS. Tôi không chắc chắn về dữ liệu nào tôi sẽ nhận được và lượng bộ lọc đã được thiết lập (plugin WP-O-Matic Wordpress sử dụng thư viện SimplePie). Plugin này thực hiện một số mã hóa cơ bản trước khi chèn bằng cách sử dụng chức năng chèn bài viết tích hợp của Wordpress cũng có chức năng lọc nào đó. Giữa mã hóa của nguồn cấp dữ liệu RSS, mã hóa của plugin bằng cách sử dụng PHP, mã hóa của Wordpress và SQL thoát, tôi không chắc bắt đầu từ đâu.Tôi sẽ sử dụng điều gì để xóa html thoát khỏi các tập dữ liệu lớn
Dữ liệu thường ở cuối trường sau nội dung tôi muốn giữ. Đó là tất cả trên cùng một dòng, nhưng tách ra để có thể đọc:
<img src="http://feeds.feedburner.com/~ff/SoundOnTheSound?i=xFxEpT2Add0:xFbIkwGc-fk:V_sGLiPBpWU" border="0"></img>
<img src="http://feeds.feedburner.com/~ff/SoundOnTheSound?d=qj6IDK7rITs" border="0"></img>
<img src="http://feeds.feedburner.com/~ff/SoundOnTheSound?i=xFxEpT2Add0:xFbIkwGc-fk:D7DqB2pKExk"
Thông báo như thế nào một số hình ảnh được thoát và một số thì không. Tôi tin rằng điều này đã làm với phần cuối cùng được cắt bỏ để không thể nhận ra như một thẻ html, mà sau đó gây ra nó để được html endcoded trong khi các thẻ img thực tế đã được để lại một mình.
kỷ lục khác có chỉ này thuộc một trong các lĩnh vực, có nghĩa là RSS feed đã cho tôi không có gì cho các mục (được lọc ra ngay bây giờ, nhưng tôi có một loạt các hồ sơ như thế này):
<img src="http://farm3.static.flickr.com/2183/2289902369_1d95bcdb85.jpg" alt="post_img" width="80"
Tất cả các mẫu được trích xuất nằm trên một dòng nhưng được chia nhỏ để dễ đọc. Nếu không, chúng được sao chép chính xác từ cơ sở dữ liệu từ dòng lệnh mysql client.
Câu hỏi: Cách tốt nhất để làm việc với html thoát trên (hoặc một phần của thẻ html), vì vậy tôi có thể xóa nó mà không ảnh hưởng đến nội dung?
Tôi muốn xóa hình ảnh, vì hình ảnh ở cuối trường thường là hình ảnh không liên quan gì đến nội dung. Trong trường hợp của feedburner, feedburner bổ sung thêm vào mỗi bài viết trong một feed. Lần khác, chúng bị hỏng liên kết xung quanh hình ảnh bị hỏng. Điểm không phải là các thẻ html img hợp lệ có thể được xóa dễ dàng. Đó là các thẻ bị xáo trộn nếu không được mã hóa sẽ không phải là html hợp lệ, sẽ không thể phân tích cú pháp với các trình phân tích cú pháp html chuẩn của bạn.
[EDIT] Nếu nó chỉ là một vấn đề kéo html tôi muốn ra ngoài và làm một strip_tags
và reinserting dữ liệu, tôi sẽ không được hỏi câu hỏi này.
Phần mà tôi gặp phải sự cố là những gì từng là thẻ img được mã hóa html và kết thúc bị cắt. Nếu nó được nhúng thì sẽ không phải là thẻ html, vì vậy, tôi không thể phân tích cú pháp theo cách thông thường.
Với tất cả các <img src="
crap, tôi không thể tìm kiếm nó khác ngoài SELECT ID, post_content FROM table WHERE post_content LIKE '<img'
mà ít nhất tôi cũng có được những bài đăng đó. Nhưng khi tôi nhận được dữ liệu, tôi cần một cách để tìm nó, loại bỏ nó, nhưng giữ phần còn lại của nội dung.
[/ EDIT]
[EDIT 2]
<img src="http://farm4.static.flickr.com/3162/2735565872_b8a4e4bd17.jpg" alt="post_img" width="80" />Through the first two months of the year, the volume of cargo handled at Port of Portland terminals has increased 46 percent as the port?s marine cargo business shows signs of recovering from a dismal 2009.<div> <a href="http://feeds.bizjournals.com/~ff/bizj_portland?a=YIs66yw13JE:_zirAnH6dt8:yIl2AUoC8zA"><img src="http://feeds.feedburner.com/~ff/bizj_portland?d=yIl2AUoC8zA" border="0"></img></a> <a href="http://feeds.bizjournals.com/~ff/bizj_portland?a=YIs66yw13JE:_zirAnH6dt8:V_sGLiPBpWU"><img src="http://feeds.feedburner.com/~ff/bizj_portland?i=YIs66yw13JE:_zirAnH6dt8:V_sGLiPBpWU" border="0"></img></a> <a href="http://feeds.bizjournals.com/~ff/bizj_portland?a=YIs66yw13JE:_zirAnH6dt8:F7zBnMyn0Lo"><img src="http://feeds.feedburner.com/~ff/bizj_portland?i=YIs66yw13JE:_zirAnH6dt8:F7zBnMyn0Lo" border="0"></img></a> <a href="http://feeds.bizjournals.com/~ff/bizj_portland?a=YIs66yw13JE:_zirAnH6dt8:qj6IDK7rITs"><img src="http://feeds.feedburner.com/~ff/bizj_portland?d=qj6IDK7rITs"
Phần tôi muốn giữ:
<img src="http://farm4.static.flickr.com/3162/2735565872_b8a4e4bd17.jpg" alt="post_img" width="80" />Through the first two months of the year, the volume of cargo handled at Port of Portland terminals has increased 46 percent as the port?s marine cargo business shows signs of recovering from a dismal 2009.
Để nhắc lại: Nó không phải về cách xóa thẻ img html hợp lệ . Thật dễ dàng. Tôi cần để có thể tìm thấy cụ thể các <img src="http://feeds.feedburner.com/~ff/bizj_portland?d=qj6IDK7rITs"
nếu nó là một phần của mô hình của img tag img tag thẻ img im lặng hoặc neo img neo img img hình ảnh bị mất vv vv, nhưng không loại bỏ <img
nếu nó thực sự là một phần của bài báo. Trong số vài chục mẫu tôi đã xem xét, nó đã được khá nhất quán rằng thẻ img này là ở cuối của lĩnh vực này.
Cách khác là thẻ hình ảnh bị xé đơn. Nó luôn là một thẻ img flickr, nhưng như trên, tôi không thể tìm kiếm <img
vì nó có thể là một phần hợp lệ của nội dung.
Vấn đề nằm ở chỗ tôi không thể đơn giản giải mã và phân tích cú pháp dưới dạng HTML, bởi vì nó sẽ không hợp lệ html. [/ EDIT 2]
Bạn đang đùa phải không? http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454 – Ether
Regex không thể phân tích cú pháp html. +1 @Ehter cho liên kết –
Sử dụng cụm từ thông dụng để phân tích cú pháp HTML tùy ý thường là ý tưởng tồi nhưng tôi không chắc chắn đó là những gì bạn đang làm. Bạn đang tìm kiếm kết quả cuối cùng như thế nào? Chỉnh sửa câu hỏi của bạn ở trên và hiển thị những gì bạn muốn kết thúc với mỗi ví dụ bạn đã bao gồm. – benrifkah