[情報] 我現在在做的工作...

看板bioinfo_lab作者 (萊姆酒)時間20年前 (2006/01/22 16:40), 編輯推噓2(200)
留言2則, 2人參與, 最新討論串1/4 (看更多)
利用阿pu寫出來的東西 我們已經可以抓到第一頁的那十篇paper的"目錄頁" 所以我今天寫了一段parser 把具有WOS那個紫色標籤的paper的 ***我目前是假設只有具有WOS標籤的paper才有citation的資料 (有反例請提出Q_Q)*** 1. paper title 2. WOS的link 抓出來 然後丟到另一個地方做處理 ↓ "further work" ↓ (有了WOS的link 進去之後就是那個可以看到CitedReference= XX 的網頁 這時候再去對這個頁面parse出CitedReferece的超連結 然後再去抓這個超連結開出的頁面的原始碼) 這個動作做完之後 我們可以把 1. paper title 2. 原始碼 轉成一個file存起來 這樣就算是完成一篇paper的citation 最後只要讓sysc寫的parser來吃這個檔案就ok ↑ 我這兩天想寫的東西 ↑ 如果查詢nod2 會發現只有最後9 10這兩篇paper有WOS標誌 我目前想先針對這兩篇paper作處理 如果可以順利抓到上述的兩樣東西 ↓ 最後的判斷迴圈 ↓ 接下來就是要去寫"換頁"的判斷 就是查詢出來如果result有1000個 那就是100個頁面 要做99次的換頁判斷 以上. 歡迎大家討論 順利的話看來我們的作業有希望在三個禮拜之內結束 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 218.170.19.136 ※ 編輯: agomi 來自: 218.170.19.136 (01/22 17:01) ※ 編輯: agomi 來自: 218.170.19.136 (01/22 17:03)

01/22 18:20, , 1F
well done! 請繼續加油 :)
01/22 18:20, 1F

01/22 21:08, , 2F
^^"
01/22 21:08, 2F
文章代碼(AID): #13qqJj65 (bioinfo_lab)
文章代碼(AID): #13qqJj65 (bioinfo_lab)