[問題] 爬蟲表格的問題
各位前輩好
小弟最近試著爬一些設備端的網頁,想取得設備目前運作狀態
(snmp竟然沒辦法取得我想要的資訊)
試著用bs及pyquery來實作
但在table這卡關,希望有經驗的前輩可以解惑一下
html如下
<table>
<thead>
<tr>
<th>
欄位1</th>
<th>
欄位2</th>
<th>欄位3</th>
<th>欄位4</th>
<th>欄位5</th>
<th>
欄位6</th>
</tr>
</thead>
<tbody>
<tr>
<td rowspan="2">
AB</td>
<th>a0</th>
<td class="bold green_border">a1<br></td>
<td class="grey">a2</td>
<td class="grey">a3</td>
<td rowspan="2">ab4</td>
</tr>
<tr>
<th>b0<br></th>
<td class="bold">b1</td>
<td class="grey">b2<br></td>
<td class="grey">b3</td>
</tr>
<tr>
<td rowspan="2">
CD</td>
<th>c0</th>
<td class="bold">c1</td>
<td class="grey">c2</td>
<td class="grey">c3</td>
<td rowspan="2">cd4</td>
</tr>
<tr>
<th>d0<br></th>
<td class="bold green_border">d1</td>
<td class="grey">d2</td>
<td class="grey">d3</td>
</tr>
</tbody>
</table>
大致上,是要取得class = green_border的值,但也要取得它前後的一些欄位
但因為有的td rowspan =2,所以不管是直接filter green_border,再往前後取得值
或是取得tr後,再find,好像都拿不到rowspan的值
比如我要找的值是d1(欄位3),但我要怎麼拿到CD(欄位1)或cd4(欄位6)的值呢?
麻煩有經驗的前輩指導一下,謝謝你們了。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.240.179.61
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1501871876.A.220.html
推
08/05 03:53, , 1F
08/05 03:53, 1F

→
08/05 04:14, , 2F
08/05 04:14, 2F
→
08/05 04:14, , 3F
08/05 04:14, 3F
→
08/05 04:14, , 4F
08/05 04:14, 4F
→
08/05 04:14, , 5F
08/05 04:14, 5F
→
08/05 06:15, , 6F
08/05 06:15, 6F
→
08/05 06:16, , 7F
08/05 06:16, 7F

→
08/05 06:16, , 8F
08/05 06:16, 8F
→
08/05 06:17, , 9F
08/05 06:17, 9F
→
08/05 07:24, , 10F
08/05 07:24, 10F

→
08/05 07:27, , 11F
08/05 07:27, 11F
→
08/05 07:28, , 12F
08/05 07:28, 12F
→
08/05 18:19, , 13F
08/05 18:19, 13F
→
08/06 02:50, , 14F
08/06 02:50, 14F
討論串 (同標題文章)