[請益] Web跟資料工程

看板Soft_Job作者 (小小母牛)時間1年前 (2023/04/10 04:36), 1年前編輯推噓17(17054)
留言71則, 22人參與, 1年前最新討論串1/1
各位好 小弟目前的工作是後端Web仔寫寫API 後來業務上有接觸到mapreduce Apache Flink 這種大數據運算框架 想請教一下各位前輩 如果為了下一份工作打算 會用這些框架 是有辦法往資料工程師當下一份工作嗎? 或者是說需要補足的知識工具其實更多? 靠刷題之後找Backend Engineer比較容易? 謝謝各位 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.243.30.197 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1681072593.A.FEC.html

04/10 06:13, 1年前 , 1F
Chatgpt問世後未來說不準了
04/10 06:13, 1F

04/10 08:35, 1年前 , 2F
很多資料工程都要值班維運喔
04/10 08:35, 2F

04/10 08:55, 1年前 , 3F
ETL很可怕
04/10 08:55, 3F

04/10 09:49, 1年前 , 4F
身兼backend和data 老闆最愛
04/10 09:49, 4F

04/10 12:24, 1年前 , 5F
要轉data eng ,看他的JD啊,或是去linkedin敲data
04/10 12:24, 5F

04/10 12:24, 1年前 , 6F
eng 然後問
04/10 12:24, 6F

04/10 12:46, 1年前 , 7F
這些都是高級excel 只是工具 沒啥優勢或門檻
04/10 12:46, 7F

04/10 12:49, 1年前 , 8F
AI 取代這種工具類的操作/分析者 是可預見的未來
04/10 12:49, 8F

04/10 12:56, 1年前 , 9F
Data Engineer 炙手可熱,就算沒落也可以轉後端,沒道理
04/10 12:56, 9F

04/10 12:56, 1年前 , 10F
不選
04/10 12:56, 10F
是怕資料工程這塊 是不是需要補很多東西 弄一弄反而沒刷題走後端高? 不然好像刷題走後端比較容易?

04/10 13:00, 1年前 , 11F
你可以試著取代看看啊 de的重點一直是人不是工具操作
04/10 13:00, 11F

04/10 13:09, 1年前 , 12F
我沒有說取代de 是取代初級的分析操作者
04/10 13:09, 12F

04/10 13:12, 1年前 , 13F
因為我認為原po敘述 離 de的能力需求還是差滿多
04/10 13:12, 13F

04/10 13:39, 1年前 , 14F
看你想清資料還是繼續當web仔
04/10 13:39, 14F

04/10 13:39, 1年前 , 15F
身為專業工程師,有時間可以拿實際證據與實作來說明吧。如
04/10 13:39, 15F

04/10 13:39, 1年前 , 16F
果DE可以被AI部分取代,真的歡迎拿實際例子來交流學習。
04/10 13:39, 16F

04/10 13:48, 1年前 , 17F
資料工程師養成,要實務一點,不要會一堆工具,然後什麼都
04/10 13:48, 17F

04/10 13:48, 1年前 , 18F
沒做過。舉例:有10億筆結構化資料,你要怎麼存與查詢,一
04/10 13:48, 18F

04/10 13:48, 1年前 , 19F
秒可以查到? 朝這種很實務的角度去學,才是正軌。沒環境
04/10 13:48, 19F

04/10 13:48, 1年前 , 20F
就自己造垃圾資料,架虛擬環境來玩。
04/10 13:48, 20F

04/10 13:50, 1年前 , 21F
只是用過工具,然後一遇到實際問題就掛,可能很難找類似工
04/10 13:50, 21F

04/10 13:50, 1年前 , 22F
作。
04/10 13:50, 22F

04/10 14:36, 1年前 , 23F
DE 在處理的主要業務不是分析操作,樓上 DrTech 說的才是 D
04/10 14:36, 23F

04/10 14:36, 1年前 , 24F
E 在關心的,需要根據業務需求規劃資料生命周期內的資料儲
04/10 14:36, 24F

04/10 14:36, 1年前 , 25F
存方式跟型態,說是高級 Excel 工具是在哈囉……
04/10 14:36, 25F

04/10 15:00, 1年前 , 26F
看起來你想走運算平台而不是倉儲?
04/10 15:00, 26F
對應該是資料工程那塊 倉儲應該算是資料分析? 可能比較像D大跟H大說這樣 因為我也是自己摸索來用 但說是高級EXCEL工具是有點怪 啦 這些框架大方向應該都算是強調大數據資料可以更快速的吧

04/10 16:00, 1年前 , 27F
原來現在DE只是專注工具的使用?那被AI取代剛剛好
04/10 16:00, 27F

04/10 16:22, 1年前 , 28F
大家都預設AI不能解決實務的問題也是挺值得討論的點
04/10 16:22, 28F

04/10 17:15, 1年前 , 29F
解決老闆不想用rdb想用mongo存結構化資料的問題
04/10 17:15, 29F

04/10 17:15, 1年前 , 30F
ai應該會叫我解決老闆
04/10 17:15, 30F

04/10 17:30, 1年前 , 31F
說mapreduce Apache Flink是高級excel是在搞笑嗎= =?先搞
04/10 17:30, 31F

04/10 17:30, 1年前 , 32F
清楚資料分析和data engineer的區別好嗎
04/10 17:30, 32F

04/10 19:45, 1年前 , 33F
好的DE跟日本原裝壓縮機一樣十分稀少,要對domain 的深入
04/10 19:45, 33F

04/10 19:45, 1年前 , 34F
理解跟大量的技術與經驗積累。遇過那種高手就知道,本來只
04/10 19:45, 34F

04/10 19:45, 1年前 , 35F
能等都更炸掉重改的中古垃圾屋,都能給你翻成漂漂亮亮的北
04/10 19:45, 35F

04/10 19:45, 1年前 , 36F
歐風溫馨文青宅。
04/10 19:45, 36F

04/10 20:47, 1年前 , 37F
想詢問哪裡可以學到相關知識
04/10 20:47, 37F
※ 編輯: lin3835 (111.243.30.197 臺灣), 04/10/2023 22:34:30

04/10 22:58, 1年前 , 38F
倉儲是資料工程喔,經典著作 The Data Warehouse Toolkit
04/10 22:58, 38F

04/10 22:58, 1年前 , 39F
有時間可以慢慢翻一下。會說是高級 Excel 工具應該是指看到
04/10 22:58, 39F

04/10 22:58, 1年前 , 40F
MapReduce 的部分,但這種操作並不是只能用在分析上……
04/10 22:58, 40F
哦哦 謝謝H大 我想了一下 現在業務上是用hadoop Flink這類的大數據框架 去應用 似乎好像比較偏向資料分析這塊不是資料工程? 聽起來只會應該這類框架還是需要補足很多相關知識才能走這條路? 那感覺是後端那種單純刷題會容易一些? 我目前是因為剛好接觸到 所以才想說有沒有走這條路的可能這樣 ※ 編輯: lin3835 (111.243.30.197 臺灣), 04/10/2023 23:11:48

04/10 23:09, 1年前 , 41F
至於待遇跟薪水問題,去看 DrTech 寫過的某篇文吧,國家跟
04/10 23:09, 41F

04/10 23:10, 1年前 , 42F
產業的權重會比職稱和使用的技術要高,你說資料工程跟後端
04/10 23:10, 42F

04/10 23:10, 1年前 , 43F
來比誰高,不提產業也無從比較起…
04/10 23:10, 43F

04/10 23:13, 1年前 , 44F
框架的大方向未必是處理效率問題,有的是處理擴展性問題
04/10 23:13, 44F

04/10 23:16, 1年前 , 45F
Hadoop 生態系沒有偏向資料分析呀~ 至於 Flink 是是為了處
04/10 23:16, 45F
我感覺會用這個應該主要是想用分散式集群的功能運算吧 把那些資料套用個什麼規則 整 理出某個 人能參考依據 這樣聽一聽 跟我實際摸索 好像真的不是會用一點工具就能往這 行走 ※ 編輯: lin3835 (111.243.30.197 臺灣), 04/10/2023 23:25:55

04/10 23:18, 1年前 , 46F
理一些需要實時計算的資料的,當大量資料實時產生的同時需
04/10 23:18, 46F

04/10 23:19, 1年前 , 47F
要分析計算會用到,要看一下你現在的業務到底接觸的是哪一
04/10 23:19, 47F
※ 編輯: lin3835 (111.243.30.197 臺灣), 04/10/2023 23:27:12

04/10 23:29, 1年前 , 48F
越接近用戶端使用的部分,相較是比較簡單的,上面 D 大提到
04/10 23:29, 48F

04/10 23:30, 1年前 , 49F
的,是偏向於提供資料使用人員(DS/DA)去做的 infra
04/10 23:30, 49F

04/10 23:34, 1年前 , 50F
多數 DE 會在串接跟維護 Data Pipeline,你說的套用某個規
04/10 23:34, 50F

04/10 23:34, 1年前 , 51F
則去整理出某人或是某個部門的資料,可能只是這條 pipeline
04/10 23:34, 51F

04/10 23:35, 1年前 , 52F
上,某一個資料出水口需要做的事~ 要挖的東西是滿多的,有
04/10 23:35, 52F

04/10 23:35, 1年前 , 53F
興趣可以從這個方向開始切進來~
04/10 23:35, 53F

04/10 23:37, 1年前 , 54F
的確在有些公司 DE 除了基礎服務設施和資料處理之外,還要
04/10 23:37, 54F

04/10 23:38, 1年前 , 55F
現在有人在用mapreduce? 我還真的沒在商業產品上看到過
04/10 23:38, 55F

04/10 23:38, 1年前 , 56F
包山包海去處理分析和視覺化…
04/10 23:38, 56F

04/10 23:42, 1年前 , 57F
公司資料量夠大都要靠 map reduce 來做分散式處理吧…幾
04/10 23:42, 57F

04/10 23:42, 1年前 , 58F
億筆資料的 indexing 難到你要一台機器做
04/10 23:42, 58F

04/10 23:43, 1年前 , 59F
還有大量 log 的 data pipeline,use case 很多
04/10 23:43, 59F

04/10 23:54, 1年前 , 60F
還有不少用 Hive 的,背後做還是 MapReduce,現在的確 Spar
04/10 23:54, 60F

04/10 23:54, 1年前 , 61F
k 跟 Flink 居多
04/10 23:54, 61F

04/11 12:17, 1年前 , 62F
只是比較沒有純寫mapreduce 框架背後還是mr啊
04/11 12:17, 62F

04/11 12:19, 1年前 , 63F
de會去服務使用flink分析的user de就要了解flink
04/11 12:19, 63F

04/12 09:44, 1年前 , 64F
DE 是個坑,每家DE 要的技能點可能都有點些許不同,進
04/12 09:44, 64F

04/12 09:44, 1年前 , 65F
來會發現包山包海,什麼能力都要,可以多看看,再看要
04/12 09:44, 65F

04/12 09:44, 1年前 , 66F
不要走 DE
04/12 09:44, 66F

04/12 10:00, 1年前 , 67F
mapreduce早被淘汰了,居然還有人在用Zzzz
04/12 10:00, 67F

04/12 14:54, 1年前 , 68F
分散式運算被後概念就是mr啊,還是你以為跑spark就
04/12 14:54, 68F

04/12 14:54, 1年前 , 69F
不是MR
04/12 14:54, 69F

04/12 18:18, 1年前 , 70F
那你應該先學Java,順便把原始碼、論文看一看,加油 Zz
04/12 18:18, 70F

04/12 18:18, 1年前 , 71F
zz
04/12 18:18, 71F
文章代碼(AID): #1aCo7H_i (Soft_Job)