./gpu-stream-cuda ./gpu-stream-cuda --groups 64 --groupSize 256 ./gpu-stream-cuda --float ./gpu-stream-cuda --float --groups 64 --groupSize 256