[問題] AWS執行Python腳本問題

看板Python作者TZULIU (消費券收購商)時間6年前發表 (2019/02/28 19:48), 6年前編輯推噓7(7推 0噓 23→)

留言30則, 10人參與, 6年前最新討論串1/1

[背景] 我有80多萬筆html檔案，每個檔案即是一個當初爬過的網頁內容，目前已經產生了一個vocabulary list，裡面是從80多萬筆html檔案找到的所有字彙，約有20萬筆（非英文字符已經刪除），我打算把這個vocabulary list匹配每個html檔，再統計每個字彙在該html檔中的次數，最後再把這個80萬*20萬的資料輸出成csv檔（SQL還正在摸索），無奈我的筆電記憶體撐不住這麼大量的資料處理，所以現在把念頭動到AWS上面。 [AWS相關知識] 我目前對於AWS只有非常基礎的理解， S3: 可以在AWS上建立新的bucket並上傳檔案；可以使用boto3進行一樣的工作 EC2: 可以在AWS上建立新的instance並且透過本地電腦連結後使用python；可以使用boto3進行一樣的工作；可以讓遠端server上傳並直接執行Python腳本 [問題] 目前的構想是先把80萬筆html檔案上傳到S3 bucket，然後藉由EC2 instance直接執行我先寫好的Python腳本，待所有檔案都讀取過後，一併將資料輸出成csv檔並儲存在S3 bucket底下。我的問題是：如果依照我的計畫進行，我的個人電腦必須不能中斷連結，否則所有進行中的遠端工作全部刪除，除非使用terminal multiplier---screen或tmux (目前正在學習中)，想請問各位有AWS經驗的高手們，我這樣的計畫可行嗎？如果不是很理想，想請問各位高手有沒有更好的做法？或者是用Lambda（打算學）來做會比較好嗎？ [AWS心得] 不用多說，AWS真的功能超多樣、超強，同時基本的大概念並不複雜，不過實際學習起來對於我這種非資工背景的新手還是相當吃力。首先，雖然AWS對於各種服務提供相當詳盡的基本教學文檔，可是對於專業觀念和名詞(遠端連結、專端機、伺服器管理等等)不熟的使用者（我），理解真的非常有限。第二，使用者社群程度太好，很常找不到可以回答新手問題的（相對）簡單答案，當然，我真心認為我本人的問題比較大，不過，以「如何讓EC2 instance直接執行python腳本為例」，我面臨到的狀況是，大部分google提供的結果都是告訴你再去使用（學）其他的外掛工具，可是這樣的做法對於我這種超新手其實沒有比較直觀，也是找了一陣子才發現如何透過command line來執行。想請問各位高手有學習的方法或心得可以分享嗎？謝謝！ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 168.150.122.93 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1551383330.A.511.html ※ 編輯: TZULIU (168.150.122.93), 03/01/2019 03:49:07 ※ 編輯: TZULIU (168.150.122.93), 03/01/2019 03:49:42 ※ 編輯: TZULIU (168.150.122.93), 03/01/2019 03:52:29

→

bibo9901

03/01 04:13, 6年前 , 1^F

03/01 04:13, 1^F

→

bibo9901

03/01 04:14, 6年前 , 2^F

03/01 04:14, 2^F

→

TakiDog

03/01 04:14, 6年前 , 3^F

03/01 04:14, 3^F