[新聞] 研究:GitHub上高達7成的檔案是複製品!消失

看板Gossiping作者時間6年前 (2017/11/21 17:43), 編輯推噓9(13412)
留言29則, 25人參與, 最新討論串1/2 (看更多)
研究:GitHub上高達7成的檔案是複製品! 微軟研究院、美國東北大學及加州大學、捷克技術大學的共同研究人員對GitHub上450萬 個非分叉專案,逾4.82億個檔案進行分析,發現只有8500萬個為原創的獨特檔案,顯示複 製檔案的比例相當高。 iThome 文/陳曉莉 | 2017-11-21發表 微軟研究院、美國東北大學、捷克技術大學及美國加州大學歐文分校的8名研究人員在近 日發表的研究報告中指出,GitHub上所代管的檔案中,只有17.6%是獨特的,有70%的檔案 是複製品,其他則是稍有變動或無關緊要的檔案。 這群研究人員原本是要調查各種複製品的粒度,以協助其他研究挑選GitHub上的隨機樣本 ,他們分析了GitHub的450萬個非分叉專案,涵蓋逾4.82億個檔案,卻意外發現當中只有 8500萬個獨特檔案,而讓研究方向轉了個彎。 該研究排除了各種分叉專案,因為這些專案原本就會含有複製內容,而不同語言的複製比 例則各不相同,例如JavaScript生態體系的複製檔案比例高達94%,C++為73%,Python為 71%,而Java則是40%。 不過,上述結果包含了許多無關緊要的複製內容,例如大小為0的空白檔案就被重複建立 了220萬次,還有一些重複檔案只鍵入了一個空行。即便扣除這些內容,上述語言的複製 檔案比例依舊高達93%、73%、69%與40%。 開源碼觀察家Adrian Colyer認為,從該報告可看出GitHub有許多專案雖未採用分叉機制 ,卻仍然複製了大量的檔案,且隨著現代的軟體專案多半仰賴其他開源專案,再加上許多 自動產生的程式碼,在未來專案中由開發人員自行撰寫的程式很可能都只佔專案的很小一 部份。 https://www.ithome.com.tw/news/118465 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.163.112.102 ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1511257380.A.185.html

11/21 17:43, , 1F
意外嗎
11/21 17:43, 1F

11/21 17:43, , 2F
pornhub表示
11/21 17:43, 2F

11/21 17:43, , 3F
根本foxy
11/21 17:43, 3F

11/21 17:43, , 4F
當然,剪貼才是王道。
11/21 17:43, 4F

11/21 17:44, , 5F
很合理啊 大家都愛 copy + paste
11/21 17:44, 5F

11/21 17:44, , 6F
廢話 難道農夫種菜還要自己培育種籽嗎(疑)
11/21 17:44, 6F

11/21 17:44, , 7F
本來就是了xD
11/21 17:44, 7F

11/21 17:44, , 8F
拼湊比較有效率
11/21 17:44, 8F

11/21 17:44, , 9F
怎麼可能自己撰寫 當然是拿別人寫好的來改阿
11/21 17:44, 9F

11/21 17:44, , 10F
可見理組也愛複製貼上
11/21 17:44, 10F

11/21 17:44, , 11F
世界一大抄
11/21 17:44, 11F

11/21 17:45, , 12F
看過有人專門載別人的project來改一些無關緊要的東西
11/21 17:45, 12F

11/21 17:45, , 13F
再自己新推一個 藉此營造出很活躍的感覺
11/21 17:45, 13F

11/21 17:45, , 14F
理組不意外
11/21 17:45, 14F

11/21 17:46, , 15F
理組人格就這樣了
11/21 17:46, 15F

11/21 17:49, , 16F
理組ㄏ
11/21 17:49, 16F

11/21 17:53, , 17F
至少有70%的問題是複製貼上就能解決
11/21 17:53, 17F

11/21 17:55, , 18F
不是每個人都是神
11/21 17:55, 18F

11/21 17:59, , 19F
大家都自己寫 科技怎麼進步
11/21 17:59, 19F

11/21 18:03, , 20F
不然設計fork來幹嘛?而且為什麼隨機,而不是選active的
11/21 18:03, 20F

11/21 18:05, , 21F
研究人員不懂 fork?
11/21 18:05, 21F

11/21 18:05, , 22F
有類似的拿來用
11/21 18:05, 22F

11/21 18:06, , 23F
我以為這網站就是備份網站用的XD
11/21 18:06, 23F

11/21 18:15, , 24F
不會把fork出來的專案都算進去吧
11/21 18:15, 24F

11/21 18:26, , 25F
寫作文不也是常常拾人牙慧 觀點複製 還有成語啊
11/21 18:26, 25F

11/21 18:32, , 26F
開源就是要給抄的 不然公開做啥
11/21 18:32, 26F

11/21 18:34, , 27F
有寫過程是就知道這很平常 很多函數定義等本來就會沿用
11/21 18:34, 27F

11/21 18:37, , 28F
除非是完全沒人想過的架構或者功能 不然基本上都大同小異
11/21 18:37, 28F

11/21 18:38, , 29F
而且相容性也是考量 很多時候不是想改就可以改的
11/21 18:38, 29F
文章代碼(AID): #1Q4_Ka65 (Gossiping)
文章代碼(AID): #1Q4_Ka65 (Gossiping)