Re: [問題] 矩陣運算

看板C_and_CPP作者justdemon (人生的轉捩點)時間15年前 (2010/10/09 16:30)推噓0(0推 0噓 0→)

留言0則, 0人參與討論串4/4 (看更多)

※ 引述《stone0912 (開心石)》之銘言： : 遇到的問題： (題意請描述清楚) : 矩陣運算耗費太久的時間 : 舉例說明： : EX1: ~矩陣運算~ : int A[62][62][34]; : for (int i=-90;i<=90;i++){ : for (int j=-90;j<=90;j++){ : for (int iii=1;iii<=61;iii++){ : for (int jjj=1;jjj<=61;jjj++){ : for (int kkk=1;kkk<=33;kkk++){ : A[iii][jjj][kkk]=(iii+jjj)/kkk }}}}} : 就需要10多秒~ : ====================================================================== : EX2: ~矩陣累加~ : int A[62][62][34]; : int main(){ : for (int i=-90;i<=90;i++){ : for (int j=-90;j<=90;j++){ : for (int iii=1;iii<=61;iii++) { : for (int jjj=1;jjj<=61;jjj++) { : for (int kkk=1;kkk<=33;kkk++) { : A[iii][jjj][kkk]=A[iii][jjj][kkk]+(iii+jjj)/kkk; }}}}} : 則需20多秒~ : 是否有針對"矩陣運算" 及 "矩陣累加"進行時間改善的方法??? : 開發平台： (例: VC++ or gcc/g++ or Dev-C++, Windows or Linux) : VC++ 關於這種龐大卻邏輯簡單的運算我之前曾經玩過類似的東西做個簡單的經驗分享也希望強者不要鞭太大力前面幾篇文章大家都有提到CUDA的優勢 GPU在這種簡單的運算擁有非常強大的優勢不過要花個幾千塊買一張顯示卡另外也有人提到BLAS 使用別人已經最佳化的lib 基本上效率極有可能倍數成長小時候對於GFLOPs 很感興趣想要用自己寫的簡單加乘運算來達到理論值結果卻很受挫號稱數十GLOPs的CPU 用簡單的for-loop寫通常了不起 1~5 GLOPs Compiler的最佳化效果也很有限根本連一半的GLOPs都達不到後來自己依照CPU cache的大小稍微改寫一下效率就倍增了不過離理論值總是還有一大段距離後來挖了個 intel MKL(math kernel library)來用印象中真的可以逼近理論值跟自己最佳化過後的code比又再次倍增最後用簡單的幾句話總結一下有錢 + 有時間 -> CUDA 沒錢 + 沒時間 -> 找個lib來用比較實在當然程式複雜度也許可以思考一下是不是真的一定得要硬幹也許有更簡化的算法? 或者是直接把結果存起來重複使用 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 219.87.64.222

‣ 返回看板[ C_and_CPP ] 程設

‣ 更多 justdemon 的文章

文章代碼(AID): #1Ci9YPlU (C_and_CPP)