[發案] Python data pipeline 改善與測試

看板CodeJob作者 (足柄嫁のクズ欧提)時間2年前 (2021/12/26 03:19), 編輯推噓1(105)
留言6則, 6人參與, 2年前最新討論串1/1
[發案] Python data pipeline 改善與測試 發案人:曾先生 聯絡方式1:站內信 聯絡方式2: 所在地區 :海外(UTC+1時區) 有效時間:徵到為止。2022-01-02前完成,額外加給20%。 專案說明: 現有 data pipeline 包含三個獨立運行的docker service: Common Crawl data retriever, GDELT data retriever 與 data preprocessor。 程式語言為 Python 3,使用 newspaper3k, gdelt, nltk, spacy_langdetect 等包。 中間資料集與結果皆以 MongoDB 儲存。 資料處理邏輯與 docker 封裝已基本完成,小資料集測試OK。 但推上測試環境爬取真實資料時,發生諸多問題例如 - 各種data bugs除之不盡 - 無法測試並確認scheduler的正確性與可靠性 - 不知道要如何應付網路中斷、資料重抓錯抓、系統停機重啟等各種狀況。 主要的requirement就是解決上面的問題,讓程式達到可以上線的品質。 接觸洽談流程如下: 發案人會先做一次live demo, 展示目前的code如何運作,解釋功能設計與問題瓶頸。 決定接案後,發案人會與接案者共同 refine 一次具體的 requirement spec, 並開放 GitLab private repo 給接案者作業。 預算:NTD 15k - 2022-01-02前完成,額外加給20%。 - 如須使用AWS等付費服務,事先與發案人討論即可。費用由發案人負擔。 接案者要求: - 一般 Python 3 服務之開發、測試與維護經驗 - 熟悉此類連續運行服務之可靠性設計 - 熟悉 docker 環境調試 - 能夠有紀律的執行一般 Git DevOps,例如每個 commit 盡量只做一件事; commit message 與 changelog 簡明清楚等 - (加分項)熟悉平行化程式之設計與除錯 - (重要加分項)具相似data pipeline與服務的架設經驗 附註:保密義務 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 77.161.173.88 (荷蘭) ※ 文章網址: https://www.ptt.cc/bbs/CodeJob/M.1640459987.A.4BE.html

12/26 09:28, 2年前 , 1F
效能優化, 200K, OK的話可以與我聯繫.
12/26 09:28, 1F

12/26 13:31, 2年前 , 2F
15k? You must be kidding me
12/26 13:31, 2F

12/27 00:17, 2年前 , 3F
效能優化, 250K, OK的話可以與我聯繫.
12/27 00:17, 3F

12/27 12:13, 2年前 , 4F
這預算真得可憐
12/27 12:13, 4F

12/27 13:45, 2年前 , 5F
發案方自己懂技術還開這種價格真的不行
12/27 13:45, 5F

12/27 17:46, 2年前 , 6F
已加價徵到
12/27 17:46, 6F
文章代碼(AID): #1XnsxJI- (CodeJob)