[新聞] 研究:GitHub上高達7成的檔案是複製品!消失
研究:GitHub上高達7成的檔案是複製品!
微軟研究院、美國東北大學及加州大學、捷克技術大學的共同研究人員對GitHub上450萬
個非分叉專案,逾4.82億個檔案進行分析,發現只有8500萬個為原創的獨特檔案,顯示複
製檔案的比例相當高。
iThome 文/陳曉莉 | 2017-11-21發表
微軟研究院、美國東北大學、捷克技術大學及美國加州大學歐文分校的8名研究人員在近
日發表的研究報告中指出,GitHub上所代管的檔案中,只有17.6%是獨特的,有70%的檔案
是複製品,其他則是稍有變動或無關緊要的檔案。
這群研究人員原本是要調查各種複製品的粒度,以協助其他研究挑選GitHub上的隨機樣本
,他們分析了GitHub的450萬個非分叉專案,涵蓋逾4.82億個檔案,卻意外發現當中只有
8500萬個獨特檔案,而讓研究方向轉了個彎。
該研究排除了各種分叉專案,因為這些專案原本就會含有複製內容,而不同語言的複製比
例則各不相同,例如JavaScript生態體系的複製檔案比例高達94%,C++為73%,Python為
71%,而Java則是40%。
不過,上述結果包含了許多無關緊要的複製內容,例如大小為0的空白檔案就被重複建立
了220萬次,還有一些重複檔案只鍵入了一個空行。即便扣除這些內容,上述語言的複製
檔案比例依舊高達93%、73%、69%與40%。
開源碼觀察家Adrian Colyer認為,從該報告可看出GitHub有許多專案雖未採用分叉機制
,卻仍然複製了大量的檔案,且隨著現代的軟體專案多半仰賴其他開源專案,再加上許多
自動產生的程式碼,在未來專案中由開發人員自行撰寫的程式很可能都只佔專案的很小一
部份。
https://www.ithome.com.tw/news/118465
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.163.112.102
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1511257380.A.185.html
推
11/21 17:43, , 1F
11/21 17:43, 1F
推
11/21 17:43, , 2F
11/21 17:43, 2F
推
11/21 17:43, , 3F
11/21 17:43, 3F
噓
11/21 17:43, , 4F
11/21 17:43, 4F
→
11/21 17:44, , 5F
11/21 17:44, 5F
推
11/21 17:44, , 6F
11/21 17:44, 6F
推
11/21 17:44, , 7F
11/21 17:44, 7F
→
11/21 17:44, , 8F
11/21 17:44, 8F
→
11/21 17:44, , 9F
11/21 17:44, 9F
推
11/21 17:44, , 10F
11/21 17:44, 10F
→
11/21 17:44, , 11F
11/21 17:44, 11F
→
11/21 17:45, , 12F
11/21 17:45, 12F
→
11/21 17:45, , 13F
11/21 17:45, 13F
推
11/21 17:45, , 14F
11/21 17:45, 14F
推
11/21 17:46, , 15F
11/21 17:46, 15F
噓
11/21 17:49, , 16F
11/21 17:49, 16F
推
11/21 17:53, , 17F
11/21 17:53, 17F
推
11/21 17:55, , 18F
11/21 17:55, 18F
推
11/21 17:59, , 19F
11/21 17:59, 19F
→
11/21 18:03, , 20F
11/21 18:03, 20F
→
11/21 18:05, , 21F
11/21 18:05, 21F
→
11/21 18:05, , 22F
11/21 18:05, 22F
→
11/21 18:06, , 23F
11/21 18:06, 23F
推
11/21 18:15, , 24F
11/21 18:15, 24F
噓
11/21 18:26, , 25F
11/21 18:26, 25F
噓
11/21 18:32, , 26F
11/21 18:32, 26F
推
11/21 18:34, , 27F
11/21 18:34, 27F
→
11/21 18:37, , 28F
11/21 18:37, 28F
→
11/21 18:38, , 29F
11/21 18:38, 29F
討論串 (同標題文章)
以下文章回應了本文:
完整討論串 (本文為第 1 之 2 篇):