[問題] 純文字環境下的分析網頁取得網址?

看板Linux作者 ( )時間15年前 (2010/07/20 19:44), 編輯推噓2(206)
留言8則, 4人參與, 最新討論串1/1
請問版友,在linux 文字模式下 用curl取得網頁的原始碼後,有較方便快速的方式可以取得網址嗎? 在windows下,有用過dom的方式將特定的tag分析,大概幾行程式碼就可以 將所需要的超連結網址或是圖片網址給取出 目前在linux Command-line interface 打算的做法是 用curl抓原始碼後,再用shell script處理文字檔,以取得所需要的資訊 因為curl抓下的原始碼挺亂的,用shell script處理可能會有loss 想請問版友是否有更好的建議嗎? 感謝 ^_^ 不好意思~再請問一下 有人可以解釋下面這段的意思嘛~ sed -n 's/.*\(href\)\=\"\([^[:space:]]*\)\".*/\2/p' -- ★正妹 你相信奇蹟嗎? To 正妹: 原本不信,但現在我信。 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 122.123.243.27

07/21 00:04, , 1F
sed
07/21 00:04, 1F

07/21 05:52, , 2F
perl regulaer expression
07/21 05:52, 2F

07/21 13:38, , 3F
想請教一下sed + regulaer expression的問題
07/21 13:38, 3F

07/21 13:38, , 4F
用sed -n 's/.*\(href\)\=\"\([^[:space:]]*\)\".*/\2/p'
07/21 13:38, 4F

07/21 13:39, , 5F
得到 ./viewtopic.php?f=57&t=38233&sid=f713efa0f4
07/21 13:39, 5F

07/21 13:40, , 6F
該怎麼修改才能得到 ./viewtopic.php?f=57&t=38233 呢?
07/21 13:40, 6F

07/21 14:50, , 7F
去問regexp版會比較快,或是自己學一下regulaer expression
07/21 14:50, 7F

07/21 14:50, , 8F
問的時候請附上範例
07/21 14:50, 8F
※ 編輯: ffrr 來自: 122.122.251.108 (07/22 01:07)
文章代碼(AID): #1CHOmjuK (Linux)