UnityであればC#で、Unreal Engine 4であればC++で実装するのが基本です。
Unreal Engine 4をWindowsマシンで用いる場合、Visual Studioに標準で入っているライブラリであれば、必要なヘッダファイルをインクルードするだけで並列化の各種ライブラリを使うことが出来ます(出来ました)。
CPUによるfor文のマルチスレッド処理であれば並列パターン ライブラリ (PPL)
GPGPUによる並列処理であればC++ AMP (C++ Accelerated Massive Parallelism)
(但し、Unreal Engine 4特有の問題で、C++ AMPのヘッダファイルはamp.hなのですが、困ったことにUnreal Engine 4のヘッダファイルにAmp.hという同名のものがあり、amp.hを正しくインクルードするためには絶対パスを書く必要がある、というのがだいぶ落とし穴でした…。これ、Epic Gamesさんが何かしら対処されたほうが良いのでは…)
C++ AMPは特定のGPUに限定されず、また、用いているPCにGPUが積まれていない場合には自動的にCPU側に処理を行わせるようにしてくれるという点で便利なのですが、カーネル関数の呼び出しコストや、そもそもの速さについては、やはりNVIDIA専用に最適化されているCUDAには敵いません。
となるとやはりCUDAのカーネル関数を直接用いたいわけですが、CUDAで記載された.cuファイルのコンパイルにはCUDAコンパイラを使わなければならず、Unreal Engine 4の場合はまずUnrealBuildToolが働いて…など、どこをどうすれば良いのかよくわかりません…。
CUDAコンパイラから生成された中間オブジェクトファイル.objをUnreal Engine 4から作られたファイルとリンクして…など、原理的には何とかなりそうな気もしなくもないのですが、結局よくわかりませんでした…。
FacebookのUnreal Engine 4非公式グループで聞いてみたところ、やはり同じ手法を示唆されました。
実行環境は、Windows 10, Unreal Engine 4.16.3, Visual Studio 2017です。
Visual StudioをインストールしたあとでCUDAをインストールします。
1. CUDAプロジェクトの作成
CUDA 9.0 Runtimeを選びます。プロジェクト名は適当に決めて下さい。何でも良いでしょう。ここではcuda_lib_testとしました。
2. 静的ライブラリ生成用の設定
DebugモードからReleaseモードに切り替えます。Debugモードのまま静的ライブラリを作ってしまうと、Unreal Engine 4で使うことが出来ません!
ConfigurationがReleaseになっていることを確認して、Configuration TypeをApplication (.exe)からStatic library (.lib)に切り替えます。
CUDAが独自に用意している型をUnreal Engine 4上からも問題なく使えるか確かめたかったので、addWithCudaの他にint4型を用いるaddWithCuda2も作ってみました。
// Copyright SCIEMENT, Inc. // by Hirofumi Seo, M.D., CEO & President #include "cuda_lib_test.h" __global__ void addKernel(int *c, const int *a, const int *b) { int i = threadIdx.x; c[i] = a[i] + b[i]; } __global__ void addKernel2(int4 *c, const int4 *a, const int4 *b) { int i = threadIdx.x; c[i].x = a[i].x + b[i].x; c[i].y = a[i].y + b[i].y; c[i].z = a[i].z + b[i].z; c[i].w = a[i].w + b[i].w; } // Helper function for using CUDA to add vectors in parallel. cudaError_t addWithCuda(int *c, const int *a, const int *b, unsigned int size, std::string* error_message) { int *dev_a = 0; int *dev_b = 0; int *dev_c = 0; cudaError_t cuda_status; // Choose which GPU to run on, change this on a multi-GPU system. cuda_status = cudaSetDevice(0); if (cuda_status != cudaSuccess) { *error_message = "cudaSetDevice failed! Do you have a CUDA-capable GPU installed?"; goto Error; } // Allocate GPU buffers for three vectors (two input, one output) . cuda_status = cudaMalloc((void**)&dev_c, size * sizeof(int)); if (cuda_status != cudaSuccess) { *error_message = "cudaMalloc failed!"; goto Error; } cuda_status = cudaMalloc((void**)&dev_a, size * sizeof(int)); if (cuda_status != cudaSuccess) { *error_message = "cudaMalloc failed!"; goto Error; } cuda_status = cudaMalloc((void**)&dev_b, size * sizeof(int)); if (cuda_status != cudaSuccess) { *error_message = "cudaMalloc failed!"; goto Error; } // Copy input vectors from host memory to GPU buffers. cuda_status = cudaMemcpy(dev_a, a, size * sizeof(int), cudaMemcpyHostToDevice); if (cuda_status != cudaSuccess) { *error_message = "cudaMemcpy failed!"; goto Error; } cuda_status = cudaMemcpy(dev_b, b, size * sizeof(int), cudaMemcpyHostToDevice); if (cuda_status != cudaSuccess) { *error_message = "cudaMemcpy failed!"; goto Error; } // Launch a kernel on the GPU with one thread for each element. addKernel <<<1, size>>> (dev_c, dev_a, dev_b); // Check for any errors launching the kernel cuda_status = cudaGetLastError(); if (cuda_status != cudaSuccess) { *error_message = "addKernel launch failed: " + std::string(cudaGetErrorString(cuda_status)); goto Error; } // cudaDeviceSynchronize waits for the kernel to finish, and returns // any errors encountered during the launch. cuda_status = cudaDeviceSynchronize(); if (cuda_status != cudaSuccess) { *error_message = "cudaDeviceSynchronize returned error code " + std::to_string(cuda_status) +" after launching addKernel!"; goto Error; } // Copy output vector from GPU buffer to host memory. cuda_status = cudaMemcpy(c, dev_c, size * sizeof(int), cudaMemcpyDeviceToHost); if (cuda_status != cudaSuccess) { *error_message = "cudaMemcpy failed!"; goto Error; } Error: cudaFree(dev_c); cudaFree(dev_a); cudaFree(dev_b); return cuda_status; } // Helper function for using CUDA to add vectors in parallel. cudaError_t addWithCuda2(int4 *c, const int4 *a, const int4 *b, std::string* error_message) { int4 *dev_a = 0; int4 *dev_b = 0; int4 *dev_c = 0; const unsigned int size = 1; cudaError_t cuda_status; // Choose which GPU to run on, change this on a multi-GPU system. cuda_status = cudaSetDevice(0); if (cuda_status != cudaSuccess) { *error_message = "cudaSetDevice failed! Do you have a CUDA-capable GPU installed?"; goto Error; } // Allocate GPU buffers for three vectors (two input, one output) . cuda_status = cudaMalloc((void**)&dev_c, size * sizeof(int4)); if (cuda_status != cudaSuccess) { *error_message = "cudaMalloc failed!"; goto Error; } cuda_status = cudaMalloc((void**)&dev_a, size * sizeof(int4)); if (cuda_status != cudaSuccess) { *error_message = "cudaMalloc failed!"; goto Error; } cuda_status = cudaMalloc((void**)&dev_b, size * sizeof(int4)); if (cuda_status != cudaSuccess) { *error_message = "cudaMalloc failed!"; goto Error; } // Copy input vectors from host memory to GPU buffers. cuda_status = cudaMemcpy(dev_a, a, size * sizeof(int4), cudaMemcpyHostToDevice); if (cuda_status != cudaSuccess) { *error_message = "cudaMemcpy failed!"; goto Error; } cuda_status = cudaMemcpy(dev_b, b, size * sizeof(int4), cudaMemcpyHostToDevice); if (cuda_status != cudaSuccess) { *error_message = "cudaMemcpy failed!"; goto Error; } // Launch a kernel on the GPU with one thread for each element. addKernel2 <<<1, size>>> (dev_c, dev_a, dev_b); // Check for any errors launching the kernel cuda_status = cudaGetLastError(); if (cuda_status != cudaSuccess) { *error_message = "addKernel launch failed: " + std::string(cudaGetErrorString(cuda_status)); goto Error; } // cudaDeviceSynchronize waits for the kernel to finish, and returns // any errors encountered during the launch. cuda_status = cudaDeviceSynchronize(); if (cuda_status != cudaSuccess) { *error_message = "cudaDeviceSynchronize returned error code " + std::to_string(cuda_status) + " after launching addKernel!"; goto Error; } // Copy output vector from GPU buffer to host memory. cuda_status = cudaMemcpy(c, dev_c, size * sizeof(int4), cudaMemcpyDeviceToHost); if (cuda_status != cudaSuccess) { *error_message = "cudaMemcpy failed!"; goto Error; } Error: cudaFree(dev_c); cudaFree(dev_a); cudaFree(dev_b); return cuda_status; } |
// Copyright SCIEMENT, Inc. // by Hirofumi Seo, M.D., CEO & President #pragma once #include <string> #include "cuda_runtime.h" #include "vector_types.h" #include "vector_functions.h" #include "device_launch_parameters.h" cudaError_t addWithCuda(int *c, const int *a, const int *b, unsigned int size, std::string* error_message); cudaError_t addWithCuda2(int4 *c, const int4 *a, const int4 *b, std::string* error_message); |
Unreal Engine 4でのfprintfは良くわからないので(知識がないだけですが…)、UE_LOGで表示出来るようにstd::stringを作ってエラー表示を
fprintf(stderr, "xxxxx");
*error_message = "xxxxx";
◆Unreal Engine 4プロジェクトの作成
何でも良いので作りましょう。CUDATestというC++ Projectを作りました。
そしてコードを書くために適当にC++ Classを作ります。CUDA_testというActor継承クラスを作りました。
そして、ヘッダファイルと先ほど作った.libファイルを該当のUnreal Engine 4プロジェクトのフォルダ下層にコピーします。もちろんコピーしなくても指定すれば使えますが、コピーしておいたほうが何かと手間が省けます。
◆Visual Studioの設定
一つだけやるとすれば、プロジェクトのPropertiesでVC++ DirectoriesのInclude Directoriesに先ほど作ったincludeフォルダを追加することでしょうか。こうするとIntelliSenseが働いてくれます。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 |
// Copyright SCIEMENT, Inc. // by Hirofumi Seo, M.D., CEO & President using UnrealBuildTool; using System.IO; public class CUDATest : ModuleRules { private string poject_root_path { get { return Path.Combine(ModuleDirectory, "../.."); } } public CUDATest(ReadOnlyTargetRules Target) : base(Target) { PCHUsage = PCHUsageMode.UseExplicitOrSharedPCHs; PublicDependencyModuleNames.AddRange(new string[] { "Core", "CoreUObject", "Engine", "InputCore" }); PrivateDependencyModuleNames.AddRange(new string[] { }); string custom_cuda_lib_include = "CUDALib/include"; string custom_cuda_lib_lib = "CUDALib/lib"; PublicIncludePaths.Add(Path.Combine(poject_root_path, custom_cuda_lib_include)); PublicAdditionalLibraries.Add(Path.Combine(poject_root_path, custom_cuda_lib_lib, "cuda_lib_test.lib")); string cuda_path = "C:/Program Files/NVIDIA GPU Computing Toolkit/CUDA/v9.0"; string cuda_include = "include"; string cuda_lib = "lib/x64"; PublicIncludePaths.Add(Path.Combine(cuda_path, cuda_include)); //PublicAdditionalLibraries.Add(Path.Combine(cuda_path, cuda_lib, "cudart.lib")); PublicAdditionalLibraries.Add(Path.Combine(cuda_path, cuda_lib, "cudart_static.lib")); // Uncomment if you are using Slate UI // PrivateDependencyModuleNames.AddRange(new string[] { "Slate", "SlateCore" }); // Uncomment if you are using online features // PrivateDependencyModuleNames.Add("OnlineSubsystem"); // To include OnlineSubsystemSteam, add it to the plugins section in your uproject file with the Enabled attribute set to true } } |
CUDA 9.0の場合、標準的なインストールでは
C:/Program Files/NVIDIA GPU Computing Toolkit/CUDA/v9.0
CUDA 9.0の.libは、cudart_static.libでも、コメントアウトしているcudart.libでもどちらでも大丈夫です。両方指定するとどうなるのかはよくわかりません(未検証)。
CUDA_test Actorは以下のようにしてみました。検証用なので実装はヘッダファイルに書きました。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 |
// Copyright SCIEMENT, Inc. // by Hirofumi Seo, M.D., CEO & President #pragma once #include "CoreMinimal.h" #include "cuda_lib_test.h" #include "GameFramework/Actor.h" #include "cuda_runtime.h" #include "CUDA_test.generated.h" UCLASS() class CUDATEST_API ACUDA_test : public AActor { GENERATED_BODY() public: // Sets default values for this actor's properties ACUDA_test(); UFUNCTION(BlueprintCallable, Category = "CUDATest") bool SimpleCUDATest() { // ----- addWithCuda test ----- const int arraySize = 5; const int a[arraySize] = { 1, 2, 3, 4, 5 }; const int b[arraySize] = { 10, 20, 30, 40, 50 }; int c[arraySize] = { 0 }; std::string error_message; // Add vectors in parallel. cudaError_t cuda_status = addWithCuda(c, a, b, arraySize, &error_message); if (cuda_status != cudaSuccess) { UE_LOG(LogTemp, Warning, TEXT("addWithCuda failed!\n")); UE_LOG(LogTemp, Warning, TEXT("%s"), *FString(error_message.c_str())); return false; } UE_LOG(LogTemp, Warning, TEXT("{1,2,3,4,5} + {10,20,30,40,50} = {%d,%d,%d,%d,%d}"), c[0], c[1], c[2], c[3], c[4]); // ----- addWithCuda2 test ----- const int4 a_int4 = make_int4(1, 2, 3, 4); const int4 b_int4 = make_int4(10, 20, 30, 40); int4 c_int4; // Add vectors in parallel. cuda_status = addWithCuda2(&c_int4, &a_int4, &b_int4, &error_message); if (cuda_status != cudaSuccess) { UE_LOG(LogTemp, Warning, TEXT("addWithCuda failed!\n")); UE_LOG(LogTemp, Warning, TEXT("%s"), *FString(error_message.c_str())); return false; } UE_LOG(LogTemp, Warning, TEXT("{1,2,3,4} + {10,20,30,40} = {%d,%d,%d,%d}"), c_int4.x, c_int4.y, c_int4.z, c_int4.w); return true; } protected: // Called when the game starts or when spawned virtual void BeginPlay() override; public: // Called every frame virtual void Tick(float DeltaTime) override; }; |
◆Unreal Editor内での設定
実行します。Window -> Developer Tools -> Output LogでOutput Logを出しておきましょう。Play!
…というわけで、正直これではGPUの性能を何一つ活かしていないわけですが、しかしこれでUnreal Engine 4でCUDAを操ることが出来ます!
大規模計算のリアルタイム可視化などにUnreal Engine 4を使うのも良いのではないでしょうか?
※本記事内容は、国立研究開発法人 日本医療研究開発機構(AMED)の平成29年度 「未来医療を実現する医療機器・システム研究開発事業『術中の迅速な判断・決定を支援するための診断支援機器・システム開発』」採択課題である「術前と術中をつなぐスマート手術ガイドソフトウェアの開発」(代表機関名:東京大学、研究開発代表者名:齊藤延人)に、東京大学大学院情報理工学系研究科の学術支援専門職員として参画している瀬尾拡史が、研究開発として行っているものやその成果を一部含んでいます。
Hey nice article , the only thing i am a bit confused is what about launching the kernel like in .cu file you have a kernel named addKernel2, what if i want to increase the number of threads per block like say 256 threads . For this do i have to create a cu file again and make another .lib file then i have to repeat the whole process to make it wotk with unreal? Or is there a way i could directly call __global__ function in ue4?
My guess is yes, but it’s more difficult.
You would have to construct your API such that you could:
1. Read information about the coda cores from your library
2. Control the thread allocation parameters from cuda.
It would be best to handle this within the cuda library, so the API can be simpler.
Thank you so much for the article, it worked like a charm! I’ve had to google translate it to English, but all the more fun 🙂