Re: [新聞] 研究:GitHub上高達7成的檔案是複製品!消失
※ 引述《pooznn (我~~~是來被打臉滴!!!)》之銘言:
: 研究:GitHub上高達7成的檔案是複製品!
: 微軟研究院、美國東北大學及加州大學、捷克技術大學的共同研究人員對GitHub上450萬
: 個非分叉專案,逾4.82億個檔案進行分析,發現只有8500萬個為原創的獨特檔案,顯示複
: 製檔案的比例相當高。
: iThome 文/陳曉莉 | 2017-11-21發表
: 微軟研究院、美國東北大學、捷克技術大學及美國加州大學歐文分校的8名研究人員在近
: 日發表的研究報告中指出,GitHub上所代管的檔案中,只有17.6%是獨特的,有70%的檔案
: 是複製品,其他則是稍有變動或無關緊要的檔案。
: 這群研究人員原本是要調查各種複製品的粒度,以協助其他研究挑選GitHub上的隨機樣本
: ,他們分析了GitHub的450萬個非分叉專案,涵蓋逾4.82億個檔案,卻意外發現當中只有
: 8500萬個獨特檔案,而讓研究方向轉了個彎。
: 該研究排除了各種分叉專案,因為這些專案原本就會含有複製內容,而不同語言的複製比
: 例則各不相同,例如JavaScript生態體系的複製檔案比例高達94%,C++為73%,Python為
: 71%,而Java則是40%。
: 不過,上述結果包含了許多無關緊要的複製內容,例如大小為0的空白檔案就被重複建立
: 了220萬次,還有一些重複檔案只鍵入了一個空行。即便扣除這些內容,上述語言的複製
: 檔案比例依舊高達93%、73%、69%與40%。
: 開源碼觀察家Adrian Colyer認為,從該報告可看出GitHub有許多專案雖未採用分叉機制
: ,卻仍然複製了大量的檔案,且隨著現代的軟體專案多半仰賴其他開源專案,再加上許多
: 自動產生的程式碼,在未來專案中由開發人員自行撰寫的程式很可能都只佔專案的很小一
: 部份。
: https://www.ithome.com.tw/news/118465
其實這篇新聞有個很大的盲點,那就是專案中vendoring的比例有多高這個問題沒回答
有用過npm的人都知道一堆寫一次後就完全不update,後續放給他爛的lib一堆
導致很多要用npm package的專案不得不把一些無名小程式的原碼直接複製到自己專案
後續自己來保持這些程式碼的新鮮度
而不是把它列dependency list之後就把自己專案的命運交該該程式的創作者
這樣大家應該知道vendoring對複製率有啥影響吧?
--
標題 [問卦] 錯過的迴轉壽司 不會再轉回來嗎?
推
01/26 20:18,
01/26 20:18
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 172.88.197.116
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1511258282.A.4A2.html
※ 編輯: softseaweed (172.88.197.116), 11/21/2017 17:59:04
推
11/21 17:59, , 1F
11/21 17:59, 1F
噓
11/21 18:06, , 2F
11/21 18:06, 2F
推
11/21 18:16, , 3F
11/21 18:16, 3F
推
11/21 18:22, , 4F
11/21 18:22, 4F
→
11/21 18:22, , 5F
11/21 18:22, 5F
推
11/21 18:24, , 6F
11/21 18:24, 6F
討論串 (同標題文章)
本文引述了以下文章的的內容:
完整討論串 (本文為第 2 之 2 篇):