[心得] Rfacebook使用心得與問題

看板R_Language作者 (天ㄦ)時間7年前 (2017/06/13 13:53), 7年前編輯推噓2(205)
留言7則, 3人參與, 最新討論串1/1
[關鍵字]: Rfaceook package [重點摘要]: 各位前輩好,最近在玩Rfacebook這個套件時發現部分抓取到的資料有些不大對勁,在此 把我看到的狀況整理出來(可能還未遇到所有狀況)讓大家參考,若是其實有規則只是我沒 有發覺也請大家指教,謝謝: ) 目前遇到的主要是照片類型文章,抓取照片類型文章的各種訊息(按讚、回應、分享)主要 是參照Po文文章網址(有加字說明的那個頁面),但在按讚人數上的紀錄卻會有出入,以下 列出幾個目前看到的狀況, p.s.有些資料甚至沒看到吻合的數字,但可能是爬文日期較早或是曾有編輯紀錄的問題因 此先忽略 1.上傳照片並新增至xxx相簿:photo post都可以看的到文章內容 ex. 文章ID:136845026417486_814387378663244 photo網址: https://www.facebook.com/DoctorKoWJ/photos/a.814387368663245.1073741880.136845026417486/814387378663244/?type=3 改成post網址: https://www.facebook.com/DoctorKoWJ/posts/814387378663244/?type=3 按讚人數:參照post網址/photo網址(全文而非第一張照片) 分享人數:(全文而非第一章照片) 2.新增照片:改成post也看不到文章內容與相關訊息, 無法用下列兩個網址中的按讚人數對應到爬到的內容 ex.文章ID:136845026417486_682365098532140 photo網址: https://www.facebook.com/DoctorKoWJ/photos/a.415511451884174.1073741827.136845026417486/682365098532140/?type=3 改成post網址: https://www.facebook.com/DoctorKoWJ/posts/682365098532140/?type=3 自己去google到的Po文文章網址: https://www.facebook.com/DoctorKoWJ/posts/682365261865457 按讚人數:參照Po文文章網址 (全文而非第一張照片) 分享人數:(全文而非第一張照片) #不一致的狀況 3.上傳照片並新增至xxx相簿:post網址只顯示第一張照片的訊息, 沒有內文 (photo網址反而才是全文文章網址) ex.文章ID:136845026417486_476154822486503 photo網址: https://www.facebook.com/DoctorKoWJ/photos/a.476104919158160.1073741860.136845026417486/476154822486503/?type=3 改成post網址: https://www.facebook.com/DoctorKoWJ/posts/476154822486503/?type=3 按讚人數:參照post網址 "而非Po文文章網址" (第一張照片而非全文) 分享人數:(全文而非第一張照片) ##總結## a. 當專頁管理者使用新增相簿功能發文時,Rfacebook套件可能會抓取到照片而非Po文的 按讚資訊。(主觀感受:大部分狀況會造成大幅低估文章的按讚人數) b. 當專頁管理者使用上傳照片(但無新增相簿)功能發文時,Rfacebook套件抓取的連結網 址為第一張照片的連結而非Po文的連結網址,然而抓取的資訊仍以Po文為主。 以下為使用的R-code require(Rfacebook) #請自行更改token fb.oauth="" #抓取粉絲專頁資料 start_date <- "2013/01/01" end_date <- "2017/05/31" page.id <- "DoctorKoWJ" page <- getPage(page.id,token=fb.oauth,n=3000,since=start_date,until=end_date) #抓取文章資料 post_ID="" n=100000 post=getPost(post_ID,token=fb.oauth,n,reactions=T) 以上,不好意思第一次在版上發這類的文章,如果敘述不好或格式很醜再麻煩見諒 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 120.108.89.62 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1497333230.A.A9A.html ※ 編輯: tan800630 (120.108.89.62), 06/13/2017 13:54:45

06/18 14:51, , 1F
謝謝分享
06/18 14:51, 1F

06/23 10:10, , 2F
你str() 結構看一下吧
06/23 10:10, 2F

06/23 10:10, , 3F
我記得都有按讚數都有
06/23 10:10, 3F

06/23 10:10, , 4F
甚至分類不同reactions
06/23 10:10, 4F

06/24 14:34, , 5F
是的,的確可以抓到相關的指標,不過在不一致的情況下
06/24 14:34, 5F

06/24 14:36, , 6F
抓到的指標並非"文章"而是單一張相片頁面的指標數值
06/24 14:36, 6F

06/24 14:36, , 7F
但若我有哪些地方弄錯的話再請告知@@ 謝謝
06/24 14:36, 7F
文章代碼(AID): #1PFttkgQ (R_Language)