add reusable utils for cuda

2025-08-15 06:33:16 +00:00 · 2024-03-08 14:53:29 +08:00 · 2024-03-08 14:53:29 +08:00 · a46598ac59
commit a46598ac59
parent 593a72e4d5
6 changed files with 284 additions and 0 deletions
--- a/extensions/csrc/common/dev_info_mgr.h
+++ b/extensions/csrc/common/dev_info_mgr.h
@ -0,0 +1,20 @@
 #pragma once
 #include <memory>
 #include "common/nvgpu_dev_info.h"
 #include "target.h"
 namespace colossalAI {
 namespace common {
 template <typename Ret>
 class DevInfoMgr final {
 public:
  static std::unique_ptr<Ret> GetDevInfo(int device_num) const {
    return std::make_unique<Ret>(device_num);
  }
 };
 }  // namespace common
 }  // namespace colossalAI
--- a/extensions/csrc/common/target.h
+++ b/extensions/csrc/common/target.h
@ -0,0 +1,134 @@
 #pragma once
 #include <exception>
 #include <iostream>
 #include <string>
 namespace colossalAI {
 namespace common {
 class Target {
 public:
  enum class OS : int {
    Unk = -1,
    Linux,
    Windows,
  };
  enum class Arch : int {
    Unk = -1,
    X86,
    Arm,
    NVGPU,
    AMDGPU,
    Ascend,
  };
  enum class BitLen : int {
    Unk = -1,
    k32,
    k64,
  };
  explicit Target(OS os, Arch arch, BitLen bitlen)
      : os_(os), arch_(arch), bitlen_(bitlen) {}
  bool defined() const {
    return (os_ != OS::Unk) && (arch_ != Arch::Unk) && (bitlen_ != BitLen::Unk);
  }
  std::string str() const {
    std::string s{"OS: "};
    switch (os_) {
      case OS::Unk:
        s += "Unk";
        break;
      case OS::Linux:
        s += "Linux";
        break;
      case OS::Windows:
        s += "Windows";
        break;
      default:
        throw std::invalid_argument("Invalid OS type!");
    }
    s += "\t";
    s += "Arch: ";
    switch (arch_) {
      case Arch::Unk:
        s += "Unk";
        break;
      case Arch::X86:
        s += "X86";
        break;
      case Arch::Arm:
        s += "Arm";
        break;
      case Arch::NVGPU:
        s += "NVGPU";
        break;
      case Arch::AMDGPU:
        s += "AMDGPU";
        break;
      case Arch::Ascend:
        s += "Ascend";
        break;
      default:
        throw std::invalid_argument("Invalid Arch type!");
    }
    s += "\t";
    s += "BitLen: ";
    switch (bitlen_) {
      case BitLen::Unk:
        s += "Unk";
        break;
      case BitLen::k32:
        s += "k32";
        break;
      case BitLen::k64:
        s += "k64";
        break;
      default:
        throw std::invalid_argument("Invalid target bit length!");
    }
    return s;
  }
  OS os() const { return os_; }
  Arch arch() const { return arch_; }
  BitLen bitlen() const { return bitlen_; }
  static Target DefaultX86Target();
  static Target DefaultArmTarget();
  static Target DefaultRocmTarget();
  static Target DefaultAscendTarget();
  static Target DefaultCUDATarget() {
    return Target(OS::Linux, Arch::CUDA, BitLen::k64);
  }
  friend std::ostream& operator<<(std::ostream& os, const Target& target);
  friend bool operator==(const Target& lhs, const Target& rhs);
  friend bool operator!=(const Target& lhs, const Target& rhs);
 private:
  OS os_{OS::Unk};
  Arch arch_{Arch::Unk};
  BitLen bitlen_{BitLen::Unk};
 };
 std::ostream& operator<<(std::ostream& os, const Target& target) {
  std::cout << target.str() << std::endl;
 }
 bool operator==(const Target& lhs, const Target& rhs) {
  return (lhs.os_ == rhs.os_) && (lhs.arch_ == rhs.arch_) &&
         (lhs.bitlen_ == rhs.bitlen_);
 }
 bool operator!=(const Target& lhs, const Target& rhs) {
  return (lhs.os_ != rhs.os_) && (lhs.arch_ != rhs.arch_) &&
         (lhs.bitlen_ != rhs.bitlen_);
 }
 }  // namespace common
 }  // namespace colossalAI
--- a/extensions/csrc/cuda/utils/gpu_launch_config.h
+++ b/extensions/csrc/cuda/utils/gpu_launch_config.h
@ -0,0 +1,36 @@
 #pragma once
 #include <cuda.h>
 #include <cuda_runtime.h>
 namespace colossalAI {
 namespace cuda {
 namespace utils {
 GPULaunchConfig GPUGetGPULaunchConfig1D(int64_t numel, int vec_size);
 // TODO(LiuYang): to be implemented
 GPULaunchConfig GPUGetGPULaunchConfig2D(int64_t numel, int vec_size);
 // TODO(LiuYang): to be implemented
 GPULaunchConfig GPUGetGPULaunchConfig3D(int64_t numel, int vec_size);
 class GPULaunchConfig {
 public:
  GPULaunchConfig(){};
  GPULaunchConfig(const dim3& block, const dim3& grid)
      : block_(block), grid_(grid) {}
  friend GPULaunchConfig GPUGetGPULaunchConfig1D(int64_t numel, int vec_size);
 protected:
  void set_block(const dim3& dim) { block_ = dim; }
  void set_grid(const dim3& dim) { grid_ = dim; }
 private:
  dim3 block_(1, 1, 1);
  dim3 grid_(1, 1, 1);
 }
 }  // namespace utils
 }  // namespace cuda
 }  // namespace colossalAI
--- a/extensions/csrc/cuda/utils/micros.h
+++ b/extensions/csrc/cuda/utils/micros.h
@ -0,0 +1,12 @@
 #pragma once
 #include <cuda.h>
 #include <cuda_runtime.h>
 #define CUDA_CHECK(func)                                           \
  {                                                                \
    auto status = func;                                            \
    if (status != cudaSuccess) {                                   \
      LOG(FATAL) << "CUDA Error : " << cudaGetErrorString(status); \
    }                                                              \
  }
--- a/extensions/csrc/cuda/utils/nvgpu_dev_info.cc
+++ b/extensions/csrc/cuda/utils/nvgpu_dev_info.cc
@ -0,0 +1,45 @@
 #include "nvgpu_dev_info.h"
 #include <array>
 namespace colossalAI {
 namespace cuda {
 namespace utils {
 std::array<int, 3> NVGPUDevInfo::GetMaxGridDims() const {
  std::array<int, 3> ret;
  ret[0] = prop_->maxGridSize[0];
  ret[1] = prop_->maxGridSize[1];
  ret[2] = prop_->maxGridSize[2];
  return ret;
 }
 std::array<int, 3> NVGPUDevInfo::GetMaxBlockDims() const {
  std::array<int, 3> ret;
  ret[0] = prop_->maxThreadsDim[0];
  ret[1] = prop_->maxThreadsDim[1];
  ret[2] = prop_->maxThreadsDim[2];
  return ret;
 }
 std::array<int, 2> NVGPUDevInfo::GetCapability() const {
  std::array<int, 2> ret;
  ret[0] = prop_.major;
  ret[1] = prop_.minor;
 }
 int NVGPUDevInfo::GetMultiProcessorCount() const {
  return prop_->multiProcessorCount;
 }
 int NVGPUDevInfo::GetMaxThreadsPerMultiProcessor() const {
  return prop_->maxThreadsPerMultiProcessor;
 }
 int NVGPUDevInfo::GetMaxThreadsPerBlock() const {
  return prop_->maxThreadsPerBlock;
 }
 }  // namespace utils
 }  // namespace cuda
 }  // namespace colossalAI
--- a/extensions/csrc/cuda/utils/nvgpu_dev_info.h
+++ b/extensions/csrc/cuda/utils/nvgpu_dev_info.h
@ -0,0 +1,37 @@
 #pragma once
 #include <cuda.h>
 #include <cuda_runtime.h>
 #include <ostream>
 #include <string>
 #include <vector>
 #include "micros.h"
 #include "target.h"
 namespace colossalAI {
 namespace cuda {
 namespace utils {
 class NVGPUDevInfo {
 public:
  explicit NVGPUDevInfo(int device_num) : device_num_(device_num) {
    CUDA_CALL(cudaGetDeviceProperties(prop_, device));
  }
  std::array<int, 3> GetMaxGridDims() const;
  std::array<int, 3> GetMaxBlockDims() const;
  std::array<int, 2> GetCapability() const;
  int GetMultiProcessorCount() const;
  int GetMaxThreadsPerMultiProcessor() const;
  int GetMaxThreadsPerBlock() const;
 private:
  int device_num_;
  cudaDeviceProp* prop_;
 };
 }  // namespace utils
 }  // namespace cuda
 }  // namespace colossalAI