[問題] TORQUE在Ubuntu上的連結細節?
最近先用 Ubuntu 配不同網卡的 VM , 試著建立自己的 Cluster
目前已經成功把服務掛在 Server上面 , 但遇到了一些問題想要
詢問是否有版友知道怎麼處理 , 順便分享至少把服務掛上去這段
的做法
如果有人有興趣的話可以參考以下設定網址:(太長,要自己貼在一起)
https://jabriffa.wordpress.com/2015/02/11/installing-
torquepbs-job-scheduler-on-ubuntu-14-04-lts/
倒數第二步如果有遇到抓不到 , 或是 Unauthorized Request
極有可能是你的hosts 沒設定好或出現名稱衝突 , 可以參考以下
內容:
xxx.xxx.xxx.xxx 是你的 public IP
ubuntu_server 是你的DNS server 設定名稱, 也就是網址中的
DOMAIN (因為一開始看網址覺得表示的有點模糊花了點時間試)
-------------------------------
127.0.0.1 localhost localhost.xxx.xxx.xxx.xxx
xxx.xxx.xxx.xxx ubuntu_server
192.168.xxx.10 Node1
192.168.xxx.20 Node2
192.168.xxx.30 Node3
-------------------------------
但遇到幾個問題想請教是否有人有相關經驗
1. 在一般 terminal 已經可以互相找到(ssh)內網機器的情況下
要如何讓 TORQUE 能夠全權控制其他內網機器 ?
目前有試幾個看到的指令 , 但因為對 TORQUE 還沒有 overall
的認識 , 覺得有些設置沒做好所以一直連不上
2. TORQUE 如何能做類似 qinfo 的指令 , 由於我以前用過別人
建好的Cluster 是用付費 PBS 後台 , 當時有 qinfo , 能夠
協助job管理 , 掌握每一台機器 CPU佔用情形 , 但此指令我
目前在 TORQUE 使用他會表示沒有該指令
3. 因為不明原因 , submit 可以 work 但不會真的 run , 只會
看到 qstat 處於有submit 但 cancel 了
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.240.167.212
※ 文章網址: https://www.ptt.cc/bbs/Linux/M.1463812581.A.F14.html
※ 編輯: JackBaska (111.240.167.212), 05/22/2016 15:38:10