Re: [問題] 關於特定字元和字元之間的字串統計已回收

看板MATLAB作者DigiPrince (幻無影)時間15年前 (2010/05/18 23:01)推噓3(3推 0噓 3→)

留言6則, 2人參與討論串2/2 (看更多)

※ 引述《rock666 (rock666)》之銘言： : 判斷網頁裡特定字元和字元之間字串的統計 : 例如: this is a book : 　　　　　　　˙ : 　　　　　　　˙ : 　　　　　　　˙ : 　　　Internet Explorer : 然後可以判斷出第一次出現的有14個字元第二次出現的有17個字元 : 但是要用什麼方法去判別字元和字元之間的數 : 應該是要設定搜尋的範圍然後用FOR 或者WHILE去讓他跑 : 但是整個概念仍無法從基礎的架構上作延伸 : 不知道範圍怎麼設定 : 也有爬過文@@ 但仍然沒有頭緒@@ : 希望有人能幫我解開這個疑惑@@ 感謝很天真地假設不會遇到多層，如 TEXT 頂多只有 tag attribute，如 TEXT 的話，可以試著用 Regular Expression。 s = urlread('http://www.w3schools.com/tags/tag_p.asp'); [start_idx, end_idx] = regexp(s, '(?<=<p[^>]*?>).*?(?=</p[^>]*>)'); % length of matched substrings l = end_idx - start_idx + 1; 如果要非常精準的話，可能還是得用 Parser 生出 DOM 來切。 -- ※ 發信站: 批踢踢實業坊(ptt.cc)

推

rock666

05/18 23:14, , 1^F

05/18 23:14, 1^F

→

DigiPrince

05/18 23:16, , 2^F

05/18 23:16, 2^F

推

rock666

05/18 23:19, , 3^F

05/18 23:19, 3^F

→

DigiPrince

05/18 23:20, , 4^F

05/18 23:20, 4^F

→

DigiPrince

05/18 23:26, , 5^F

05/18 23:26, 5^F

推

rock666

05/18 23:48, , 6^F

05/18 23:48, 6^F

如果想知道成不成功的話有個幫助判斷的方法：把 regexp 的 output argument list 改成 [start_idx, end_idx, extents, matches] 這樣就可以直接在 matches 裡看到抓到的所有字串。不過看到字串只是幫助你看看是否都有找到找對，實際確認還是得自己開原始碼。 ※ 編輯: DigiPrince 來自: 140.113.94.230 (05/19 00:06)

‣ 返回看板[ MATLAB ] 程設

‣ 更多 DigiPrince 的文章

文章代碼(AID): #1BygkjM4 (MATLAB)