[轉錄]regex討論:以<script></script>的拆解r …

看板RegExp作者 (痞子軍團團長)時間16年前 (2008/03/06 19:54), 編輯推噓0(000)
留言0則, 0人參與, 最新討論串1/1
※ [本文轉錄自 java 看板] 作者: TonyQ (骨頭) 看板: java 標題: regex討論:以<script></script>的拆解regex為例 時間: Thu Mar 6 13:11:29 2008 給痞子: 我知道有regex版,不過對我而言regex在程式語言有必要作為介紹, 一昧的把關係給分離,只是造成認知上的隔閡而已。 當然更進階的運用或介紹還是得往regex發展, 不過這種程度的基本介紹,程式語言版還是有必要留著的。 but 如果你覺得不符版旨可以自行處理掉 XD 這就像Web_design要不要把 jsp/asp/asp.net/js的問題切割回專版一樣, 各有優劣啦。:p 本來這篇是回slalala的文,不過既然寫了就貼出來, 看有沒有人迴響一下。XD 本篇適用對象: 了解regex是作什麼用,有一定regex基礎概念的人。 ──────────────────────────────── 以底下的字串為例 "<[\\s]*?script[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?script[\\s]*?>" ──────────────────────────────── 先把握切割的重點 按照解析層級的順序依序 ()是區塊 (這個例子沒有) [] 是字 *?+{} 是次數 \是脫逸 (記得Java要寫成 \\ 脫逸兩次) [^] 字開頭帶^為反集合 所以可以先這樣切 <[\\s]*?script[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?script[\\s]*?> 轉換為<字1{次數1}script字2{次數2}>字3{次數3}<字4{次數4}脫逸/字5{次數5} script字六{次數6}> 這樣你應該看得出來哪些是可變動的,哪些是完全比對的(淺藍色字體)。 其中有六個word跟六個次數,基本上都是查表法可以查出來的。 查這個表 http://java.sun.com/j2se/1.5.0/docs/api/java/util/regex/Pattern.html 字1 : [\\s] 根據api \s A whitespace character: [ \t\n\x0B\f\r] 一個表示為空白的字元 等義於 [ \t\n\x0B\f\r] 字2 : [^>] ^有反集合的意思所以是 非">"以外的字元 字3 : [\\s\\S] 同字1 另外再加上非白的字元,其實也就是所有的字元。 (其實我認為這可以用 . 取代了) 字4、字5、字6 同字1 至於次數 直接丟去查表吧 反正不外乎三種 (零次或1次) ? (零次或無限多次 ) * (一次以上) + 還有一種就是指定次數的 { } 這用法可以指定要出現的次數,也可以用來達到上面三個特殊字元的用途。 -- I am a person, and I am always thinking . Thinking in love , Thinking in life , Thinking in why , Thinking in worth. I can't believe any of what , I am just thinking then thinking , but worst of all , most of mine is thinking not actioning... -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 59.115.77.239

03/06 13:52,
好複雜 (暈)
03/06 13:52

03/06 14:54,
經常shell或者perl的這種是基本功啊
03/06 14:54

03/06 15:01,
我實在是想說perl是不能拿來當例子 屬性不同啊 XDDD
03/06 15:01

03/06 15:20,
perl的字串不一定要用", 所以比較方便一點 XD
03/06 15:20

03/06 15:31,
正則式如果學過編譯原理里的有限自動機原理將會好理解不少..
03/06 15:31

03/06 16:52,
[\\s]*?這個*?是幾次阿 可出現無限多次*和零次或一次?
03/06 16:52

03/06 17:03,
0次以上 非GREED的用法 XD
03/06 17:03
-- 侃侃長論鮮窒礙 首頁:http://www.psmonkey.idv.tw 眾目睽睽無心顫 Blog:http://ps-think.blogspot.com 煢居少聊常人事 殺頭容易告白難 歡迎參觀 Java 版(@ptt.cc)精華區 \囧/ -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 61.228.201.164
文章代碼(AID): #17pzjs7V (RegExp)