为了账号安全,请及时绑定邮箱和手机立即绑定

似乎达到了CUDA限制,但这有什么限制?

似乎达到了CUDA限制,但这有什么限制?

似乎达到了CUDA限制,但这有什么限制?我有一个CUDA程序似乎在某种资源的某种限制,但我无法弄清楚该资源是什么。这是内核函数:__global__ void DoCheck(float2* points, int* segmentToPolylineIndexMap,                          int segmentCount, int* output){     int segmentIndex = threadIdx.x + blockIdx.x * blockDim.x;     int pointCount = segmentCount + 1;     if(segmentIndex >= segmentCount)         return;     int polylineIndex = segmentToPolylineIndexMap[segmentIndex];     int result = 0;     if(polylineIndex >= 0)     {         float2 p1 = points[segmentIndex];         float2 p2 = points[segmentIndex+1];         float2 A = p2;         float2 a;         a.x = p2.x - p1.x;         a.y = p2.y - p1.y;         for(int i = segmentIndex+2; i < segmentCount; i++)         {             int currentPolylineIndex = segmentToPolylineIndexMap[i];             // if not a different segment within out polyline and             // not a fake segment             bool isLegit = (currentPolylineIndex != polylineIndex &&                  currentPolylineIndex >= 0);                   float2 p3 = points[i];             float2 p4 = points[i+1];             float2 B = p4;             float2 b;             b.x = p4.x - p3.x;             b.y = p4.y - p3.y;             float2 c;             c.x = B.x - A.x;             c.y = B.y - A.y;             float2 b_perp;             b_perp.x = -b.y;             b_perp.y = b.x;             float numerator = dot(b_perp, c);             float denominator = dot(b_perp, a);             bool isParallel = (denominator == 0.0);     output[segmentIndex] = result;}参数的大如下:devicePoints = 22,464 float2s = 179,712字节deviceSegmentsToPolylineIndexMap = 22,463 ints = 89,852字节numSegments = 1 int = 4个字节deviceOutput = 22,463 ints = 89,852字节当我执行这个内核时,它会崩溃视频卡。看起来我正在达到某种限制,因为如果我使用DoCheck<<<300, 32>>>(...);它来执行内核,它就可以工作。需要明确的是,参数是相同的,只是块数不同。知道为什么一个人崩溃了视频驱动程序,而另一个没有?失败的那个似乎仍然在卡的数量限制内。更新 有关我的系统配置的更多信息:视频卡:nVidia 8800GTCUDA版本:1.1操作系统:Windows Server 2008 R2我也尝试在具有以下配置的笔记本电脑上,但得到了相同的结果:视频卡:nVidia Quadro FX 880MCUDA版本:1.2操作系统:Windows 7 64位
查看完整描述

1 回答

?
繁星点点滴滴

TA贡献1803条经验 获得超3个赞

正在耗尽的资源是时间。在所有当前的CUDA平台上,显示驱动程序都包含一个看门狗定时器,可以杀死任何需要几秒钟才能执行的内核。在运行显示器的卡上运行代码受此限制。

在您使用的WDDM Windows平台上,有三种可能的解决方案/解决方案:

  1. 获取Telsa卡并使用TCC驱动程序,完全消除了这个问题

  2. 尝试修改注册表设置以增加计时器限制(google for TdrDelay注册表项以获取更多信息,但我不是Windows用户,并且不能比这更具体)

  3. 修改您的内核代码以“重入”并在几个内核启动而不是一个内核启动中处理数据并行工作负载。内核启动开销并不是那么大,并且通过几个内核运行处理工作负载通常很容易实现,具体取决于您使用的算法。


查看完整回答
反对 回复 2019-08-14
  • 1 回答
  • 0 关注
  • 708 浏览

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信