[情報] 我現在在做的工作...
利用阿pu寫出來的東西
我們已經可以抓到第一頁的那十篇paper的"目錄頁"
所以我今天寫了一段parser
把具有WOS那個紫色標籤的paper的
***我目前是假設只有具有WOS標籤的paper才有citation的資料 (有反例請提出Q_Q)***
1. paper title
2. WOS的link
抓出來
然後丟到另一個地方做處理
↓ "further work" ↓
(有了WOS的link 進去之後就是那個可以看到CitedReference= XX 的網頁
這時候再去對這個頁面parse出CitedReferece的超連結
然後再去抓這個超連結開出的頁面的原始碼)
這個動作做完之後 我們可以把
1. paper title
2. 原始碼
轉成一個file存起來
這樣就算是完成一篇paper的citation
最後只要讓sysc寫的parser來吃這個檔案就ok
↑ 我這兩天想寫的東西 ↑
如果查詢nod2
會發現只有最後9 10這兩篇paper有WOS標誌
我目前想先針對這兩篇paper作處理
如果可以順利抓到上述的兩樣東西
↓ 最後的判斷迴圈 ↓
接下來就是要去寫"換頁"的判斷
就是查詢出來如果result有1000個 那就是100個頁面
要做99次的換頁判斷
以上. 歡迎大家討論
順利的話看來我們的作業有希望在三個禮拜之內結束
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 218.170.19.136
※ 編輯: agomi 來自: 218.170.19.136 (01/22 17:01)
※ 編輯: agomi 來自: 218.170.19.136 (01/22 17:03)
推
01/22 18:20, , 1F
01/22 18:20, 1F
推
01/22 21:08, , 2F
01/22 21:08, 2F
討論串 (同標題文章)