Tôi đã được giao nhiệm vụ trong công việc cạo màn hình một trong các ứng dụng web cũ của chúng tôi để trích xuất một số dữ liệu nhất định từ mã. Dữ liệu được định dạng và "phải" được hiển thị chính xác giống nhau mọi lúc. Tôi chỉ không chắc chắn làm thế nào để đi về việc này. Đó là một tệp html đầy đủ với các điều hướng đầu trang và chân trang nhưng ở giữa tất cả điều này là dữ liệu tôi cần.Màn hình Cọc HTML với C#
tôi cần phải trích xuất các giá trị tên công ty, Tên người liên hệ, điện thoại, địa chỉ email, vv
Dưới đây là một ví dụ về những gì mã trông giống như:
...html above here
<br /><br />
<table cellpadding="0" cellspacing="12" border="0">
<tr>
<td valign="top" align="center">
<!-- Company Info -->
<table cellpadding="0" cellspacing="0" border="0">
<tr>
<td class="black">
<table cellspacing="1" cellpadding="0" border="0" width="370">
<tr>
<th>ABC INDUSTRIES</th>
</tr>
<tr>
<td class="search">
<table cellpadding="5" cellspacing="0" border="0" width="100%">
<tr>
<td>
<table cellpadding="1" cellspacing="0" border="0" width="100%">
<tr>
<td align="center" colspan="2"><hr></td>
</tr>
<tr>
<td align="right" nowrap><b><font color="FF0000">Contact Person <img src="/images/icon_contact.gif" align="absmiddle"> :</font></b></td>
<td align="left" width="100%"> Joe Smith</td>
</tr>
<tr>
<td align="right" nowrap><b><font color="FF0000">Phone Number <img src="/images/icon_phone.gif" align="absmiddle"> :</font></b></td>
<td align="left" width="100%"> 555-555-5555</td>
</tr>
<tr>
<td align="right" nowrap><b><font color="FF0000">E-mail Address <img src="/images/icon_email.gif" align="absmiddle"> :</font></b></td>
<td align="left" width="100%"> <a HREF="mailto:[email protected]">[email protected]</a></td>
</tr>
more...
Có là mã thêm về màn hình trong một cấu trúc bảng khác nhau mà tôi cũng cần phải kéo.
Nếu HTML là XML được định dạng tốt, sẽ khá dễ dàng để thả văn bản vào tài liệu XML và nhận các phần bạn cần với XPath hoặc XSL. – Juliet