[問題] regex 網頁標籤!?

看板C_Sharp作者 (nothing)時間17年前 (2009/01/18 16:25), 編輯推噓4(406)
留言10則, 4人參與, 最新討論串1/1
雖然問題這樣打!~ 不過自自己試過一些code 總是有部分的標籤不能濾掉! (還有<script><?...?>這類CGI程式的code) 所以我就上網去找!!~ 找到網路上的一個方法!~ 不過不知怎用 是使用document.body.innerText 不過把這行加到C#程式中 會說沒有document這個東西! 可是我看很多程式都有用啊!! 這不是system.IO裡面的指令嗎!? 另外,大部分都是在javascript中看到這個code! 所以我也很懷疑這可不可以用到C#上 (網路上有寫到可以) 只是他就只說用document.body.innerText可以濾掉所有標籤 如果真的可以的話那就方便太多了! -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.116.245.199 ※ 編輯: abcg5 來自: 140.116.245.199 (01/18 16:31)

01/18 17:03, , 1F
那的確是javascript旳CODE...你是寫ASP.NET嗎?
01/18 17:03, 1F

01/18 17:07, , 2F
我是用C#(第一次說XD) 不過我沒用到ASP.NET(其實是不會用)
01/18 17:07, 2F

01/18 17:11, , 3F
主要是我有幾萬頁的webpages要作去tag的動作~
01/18 17:11, 3F

01/18 17:11, , 4F
但卻沒有一次可以全部種類tag去掉的方法...
01/18 17:11, 4F

01/19 06:33, , 5F
寫程式去TAG可行...用regex要一次去掉很難.
01/19 06:33, 5F

01/19 11:42, , 6F
我提一個想法,你用XML的方式去讀InnerTEXT呢?
01/19 11:42, 6F

01/19 13:35, , 7F
Maybe you can try jQuery
01/19 13:35, 7F

01/19 14:06, , 8F
先回樓樓上用XML的方式 不能處理<p> <br>這種情況
01/19 14:06, 8F

01/19 14:49, , 9F
另外發現了mshtml 和 HTMLAgilityPack也能使用在PAERSE
01/19 14:49, 9F

01/19 14:53, , 10F
第一個好像是ASP.NET 第二個是外加套件
01/19 14:53, 10F
文章代碼(AID): #19SkU2VA (C_Sharp)