benchmark

cudaMemcpyの時間を計測してみる

cudaMemcpyの実行時間を計測してみました。環境条件は次の通りです。 CUDA 2.3 GeForce 9800GT 1KB転送 とりあえず1KBの転送をしてみます。コード #include <algorithm> #include <cstdio> #include <ctime> #include <stdint.h> #define N 1024 static inline void print_msec(const char * s, c</stdint.h></ctime></cstdio></algorithm>…

13Bはかなり速くなってる。

Erlang OTP R13BでSMPのパフォーマンスが向上した、との事なので実際に実行時間の計測を行いました。手軽に計測するため、デバッグ済み既存コードとして、Computer Programming Benchmarks Gameのbinary-treesを借りてきます。 実行環境は以下の通りです。 C…