逐步解說：偵錯 C++ AMP 應用程式

發行項
06/09/2015

本主題示範如何使用 C++ Accelerated Massive Parallelism (C++ AMP)來利用圖形處理器 (GPU) 進行偵錯應用程式。它會使用平行降低程式來加總大型陣列的整數。這個逐步解說將說明下列工作：

啟動 GPU 偵錯工具。
檢查 GPU 執行緒視窗中的執行緒。
使用平行堆疊視窗同時觀察多重 GPU 執行緒的呼叫堆疊。
若要在多個執行緒之間檢查單一運算式的值請使用平行監看式視窗。
標幟、凍結、解除凍結，和群組 GPU 執行緒。
針對程式碼的特定區域執行所有執行緒。

必要條件

請在啟動前瀏覽這個說明：

讀取 C++ AMP 概觀。
行數將會顯示在文字編輯器中。如需詳細資訊，請參閱HOW TO：顯示編輯器中的行號。
請確定您執行 Windows 8 或 Windows Server 2012 支援軟體模擬器的偵錯。

注意事項
您的電腦對於下列指示中某些 Visual Studio 使用者介面項目的名稱或位置，可能會顯示不同的資訊：您所擁有的 Visual Studio 版本以及使用的設定會決定這些項目。如需詳細資訊，請參閱＜Visual Studio 中的自訂開發設定＞。

建立範例專案

啟動 Visual Studio。
在功能表列上，選擇 [檔案]、[新增]、[專案]。
在範本窗格中選擇 [已安裝]，接著選擇 [Visual C++]。
選擇 Win32 主控台應用程式，輸入 AMPMapReduce 在名稱方塊中，然後再選擇確定按鈕。
選擇 [下一步] 按鈕。
清除先行編譯標頭 核取方塊，然後再選擇完成按鈕。
在方案總管中，從專案刪除 stdafx.h、 targetver.h 和 stdafx.cpp。

開啟 AMPMapReduce.cpp，將它的內容取代成下列程式碼。

// AMPMapReduce.cpp defines the entry point for the program.
// The program performs a parallel-sum reduction that computes the sum of an array of integers. 

#include <stdio.h>
#include <tchar.h>
#include <amp.h>

const int BLOCK_DIM = 32;

using namespace concurrency;

void sum_kernel_tiled(tiled_index<BLOCK_DIM> t_idx, array<int, 1> &A, int stride_size) restrict(amp)
{
    tile_static int localA[BLOCK_DIM];

    index<1> globalIdx = t_idx.global * stride_size;
    index<1> localIdx = t_idx.local;

    localA[localIdx[0]] =  A[globalIdx];

    t_idx.barrier.wait();

    // Aggregate all elements in one tile into the first element.
    for (int i = BLOCK_DIM / 2; i > 0; i /= 2) 
    {
        if (localIdx[0] < i) 
        {

            localA[localIdx[0]] += localA[localIdx[0] + i];
        }

        t_idx.barrier.wait();
    }

    if (localIdx[0] == 0)
    {
        A[globalIdx] = localA[0];
    }
}

int size_after_padding(int n)
{
    // The extent might have to be slightly bigger than num_stride to 
    // be evenly divisible by BLOCK_DIM. You can do this by padding with zeros.
    // The calculation to do this is BLOCK_DIM * ceil(n / BLOCK_DIM)
    return ((n - 1) / BLOCK_DIM + 1) * BLOCK_DIM;
}

int reduction_sum_gpu_kernel(array<int, 1> input) 
{
    int len = input.extent[0];

    //Tree-based reduction control that uses the CPU.
    for (int stride_size = 1; stride_size < len; stride_size *= BLOCK_DIM) 
    {
        // Number of useful values in the array, given the current
        // stride size.
        int num_strides = len / stride_size;  

        extent<1> e(size_after_padding(num_strides));

        // The sum kernel that uses the GPU.
        parallel_for_each(extent<1>(e).tile<BLOCK_DIM>(), [&input, stride_size] (tiled_index<BLOCK_DIM> idx) restrict(amp)
        {
            sum_kernel_tiled(idx, input, stride_size);
        });
    }

    array_view<int, 1> output = input.section(extent<1>(1));
    return output[0];
}

int cpu_sum(const std::vector<int> &arr) {
    int sum = 0;
    for (size_t i = 0; i < arr.size(); i++) {
        sum += arr[i];
    }
    return sum;
}

std::vector<int> rand_vector(unsigned int size) {
    srand(2011);

    std::vector<int> vec(size);
    for (size_t i = 0; i < size; i++) {
        vec[i] = rand();
    }
    return vec;
}

array<int, 1> vector_to_array(const std::vector<int> &vec) {
    array<int, 1> arr(vec.size());
    copy(vec.begin(), vec.end(), arr);
    return arr;
}

int _tmain(int argc, _TCHAR* argv[])
{
    std::vector<int> vec = rand_vector(10000);
    array<int, 1> arr = vector_to_array(vec);

    int expected = cpu_sum(vec);
    int actual = reduction_sum_gpu_kernel(arr);

    bool passed = (expected == actual);
    if (!passed) {
        printf("Actual (GPU): %d, Expected (CPU): %d", actual, expected);
    }
    printf("sum: %s\n", passed ? "Passed!" : "Failed!"); 

    getchar();

    return 0;
}

在功能表列上，選擇 [檔案]、[全部儲存]。
在方案總管中，開啟快顯功能表的 AMPMapReduce，然後選擇屬性。
在屬性頁 對話方塊的 組態屬性，選擇 C/C++， 先行編譯標頭。
欲修改先行編譯標頭 屬性，請選取 未使用先行編譯標頭檔，然後選擇 [確定] 按鈕。
在功能表列上，選擇 [建置]、[建置方案]。

偵錯 CPU 程式碼

在此程序，您將使用本機的 Windows 偵錯工具，以確定這個應用程式中的 CPU 程式碼正確。特別有趣的是這個應用程式 CPU 程式碼的區段為for迴圈，在reduction_sum_gpu_kernel函式中。在 GPU 上執行，可控制減少樹狀結構式平行。

要偵錯的 CPU 程式碼

在方案總管中，開啟快顯功能表的 AMPMapReduce，然後選擇屬性。
在屬性頁 對話方塊的 組態屬性，選擇偵錯。請確認本機 Windows 偵錯工具 中已選取 偵錯工具啟動清單。
傳回程式碼編輯器。
下圖 (大約行 67 行 70) 所示的程式碼的行上設定中斷點。

CPU 中斷點
在功能表列上，選擇 [偵錯]、[開始偵錯]。
在區域變數 視窗中，尋找值為stride_size直到行 70 中斷點為止。
在功能表列上，選擇 [偵錯]、[停止偵錯]。

偵錯 GPU 程式碼

本章節示範如何偵錯 GPU 程式碼，也就是包含在sum_kernel_tiled函式中的程式碼。 GPU 程式碼可平行計算整數，如"區塊"中的總和。

若要偵錯的 GPU 程式碼

在方案總管中，開啟快顯功能表的 AMPMapReduce，然後選擇屬性。
在屬性頁 對話方塊的 組態屬性，選擇偵錯。
在 [要啟動的偵錯工具] 清單中，選取 [本機 Windows 偵錯工具]。
在 [偵錯工具類型] 清單中，選取 [僅限 GPU]。
選擇 [確定] 按鈕。
下圖所示，請在列 30 設定中斷點。

GPU 中斷點
在功能表列上，選擇 [偵錯]、[開始偵錯]。行數 67 與 70 的 CPU 程式碼中的中斷點在 GPU 偵錯期間不會執行，因為 CPU 將會執行這些程式碼。

若要使用 [GPU 執行緒] 視窗

若要開啟 [GPU 執行緒] 視窗，在功能表列中，選擇偵錯，視窗，GPU 執行緒。

在 [GPU 執行緒] 視窗中，您可以檢閱 GPU 執行緒狀態。
停駐 GPU 執行緒視窗在 Visual Studio 的下方。選擇 [展開執行緒切換] 按鈕以顯示 tile 和執行緒文字方塊。 GPU 執行緒視窗中顯示使用中和已封鎖的 GPU 執行緒的總數，如下圖所示。

[GPU 執行緒] 視窗

有 313 區塊配置給這項計算。每個區塊都包含 32 個執行緒。因為在本機的軟體模擬器進行 GPU 偵錯，則會有四個作用中的 GPU 執行緒。四個執行緒同時執行的指令，然後同時繼續下一個指令。

在 GPU 執行緒視窗、第 21 行 (t_idx.barrier.wait();)附近所定義 tile_barrier::wait 陳述式中有4個執行中、 28個被阻擋的GPU 執行緒。所有 32 個 GPU 執行緒隸屬於第一個 tile，tile[0]。箭頭指向的資料列，其中包含目前的執行緒。若要切換到另一個執行緒，請使用下列方法之一：
- 在列中的執行緒切換至 [GPU 執行緒] 視窗中，開啟快顯功能表，然後選擇切換至執行緒。如果資料列代表一個以上的執行緒，您會切換至第一個執行緒根據執行緒座標。
- 輸入執行緒的值到對應的 [文字] 方塊，然後選擇 切換執行緒 按鈕。
呼叫堆疊視窗會顯示目前的 GPU 執行緒的呼叫堆疊。

若要使用平行堆疊視窗

若要開啟 [平行堆疊] 視窗，在功能表列中，選擇偵錯，視窗，平行堆疊。

您可以使用平行堆疊視窗，同時檢查多個 GPU 執行緒的堆疊框架。
在 Visual Studio 的底部停駐平行堆疊視窗。
請確定執行緒在左上角清單中被選取。如下列圖例，您在 [GPU 執行緒] 視窗中會看到 GPU 執行緒的呼叫堆疊顯示於平行堆疊視窗中。

[平行堆疊] 視窗

32 個執行緒不同名稱儲存變更從_kernel_stub到 lambda 陳述式中透過parallel_for_each函式呼叫，並執行sum_kernel_tiled函式，減少平行的發生。在 32 個執行緒中的 28 個已進行至 tile_barrier::wait 陳述式，並會一直維持封鎖在行 22，而其他 4 個執行緒仍持續進行於sum_kernel_tiled在行 30 的函式。

您可以檢視可用的執行緒屬性在[GPU 執行緒] 視窗中，在豐富的資料型提示方塊中。若要執行這項操作，將滑鼠指標停留在堆疊框架的 sum_kernel_tiled。下圖顯示資料提示方塊。

GPU 執行緒資料提示方塊

如需有關 [平行堆疊] 視窗的詳細資訊，請參閱使用平行堆疊視窗。

若要使用平行監看式視窗

若要開啟 [平行監看式] 視窗，在 [功能表列] 中，選擇偵錯，視窗，平行監看式，平行監看式 1。

您可以使用 [平行監看式] 視窗來跨多重執行緒檢查運算式的值。
將 [平行監看式 1] 視窗停駐 Visual Studio 的底部。在 [平行監看式] 視窗中有 32 個資料列。分別對應到出現在[GPU 執行緒平行堆疊] 視窗和 [GPU 執行緒] 視窗中的GPU執行緒。現在，您可以輸入運算是來檢查所有 32 GPU 執行緒之中的哪一個的值。
選取 新增監看式 資料行行首中，輸入 localIdx，然後選擇 [Enter] 鍵。
選取 新增監看式 一次的資料行行首，輸入 globalIdx，然後選擇 [Enter] 鍵。
選取 新增監看式 一次的資料行行首，輸入 localA [localIdx [0]]，然後選擇 [Enter] 鍵。

您可以藉由選取其相對應的資料行行首排序指定的運算式。

選取 localA [localIdx [0]] 資料行行首來排序資料行。下圖顯示由 **localA [localIdx [0]]**排序方式的結果。

排序結果

可以藉由選擇 [Excel] 按鈕，然後選取 [將平行監看式] 視窗中的內容匯出至 Excel，接著選擇 在 Excel 中開啟。如果您在開發電腦上安裝 Excel，這會開啟 Excel 工作表包含的內容。
在 [平行監看式] 視窗的右上角，沒有可供您使用的布林運算式來篩選內容篩選器控制項。在篩選條件控制文字方塊中請輸入 localA [localIdx [0]] > 20000，然後選擇 [Enter] 鍵。

[視窗] 現在只包含執行緒的localA[localIdx[0]]值大於 20000。內容仍會按照localA[localIdx[0]]資料行排序，也就是您稍早執行的排序動作。

標幟 GPU 執行緒

您可以標示特定的 GPU 執行緒於 [GPU 執行緒] 視窗中、 [平行監看式] 視窗中或在 [平行堆疊] 視窗中的資料提示方塊中。如果 [GPU 執行緒] 視窗中的資料列包含一個以上的執行緒，標示該資料列旗標的列中包含所有執行緒。

若要加上旗標於 GPU 執行緒

選取 [執行緒] 資料行行首來排序 tile 索引和執行緒索引的 [平行監看式 1] 視窗中。
在功能表列上，選擇偵錯，繼續，而導致四個執行緒進行到下一次 (在 AMPMapReduce.cpp 32 行定義) 的防護機制。
選擇包含四個目前作用中的執行緒的資料列左邊的旗標符號。

下圖顯示 [GPU 執行緒] 視窗中的四個作用中加上旗標的執行緒。

[GPU 執行緒] 視窗中正在活動的執行緒

[平行監看式] 視窗和視窗的 [平行堆疊] 資料提示方塊兩者皆可指出加上旗標的執行緒。
如果您想要把焦點放在已標幟的四個執行緒上，您可以選擇在 GPU 執行緒、平行監看式和平行堆疊視窗中顯示加上旗標的執行緒。

請選擇僅顯示加上旗標按鈕上任何的視窗或偵錯位置工具列。下圖顯示 [僅顯示加上旗標] 按鈕，在偵錯位置工具列。

[僅顯示已標幟的項目] 按鈕

現在 [GPU 執行緒]、 [平行監看式] 和 [平行堆疊] 視窗會顯示加上旗標的執行緒。

凍結和解除凍結 GPU 執行緒

您可以從 [GPU 執行緒] 視窗或 [平行監看式] 視窗凍結 (暫停) 和解除凍結 (繼續) GPU 執行緒。您可以以相同的方式凍結及解除凍結 CPU 執行緒。如需資訊，請參閱如何：使用執行緒視窗。

若要凍結及解除凍結 GPU 執行緒

選擇僅顯示加上旗標 ] 按鈕以顯示所有執行緒。
在功能表列上，選擇偵錯，繼續。
開啟使用中的資料列的快顯功能表，然後選擇凍結。

[GPU 執行緒] 視窗中的下方將顯示四個執行緒已凍結。

[GPU 執行緒] 視窗中已凍結的執行緒

同樣地，[平行監看式] 視窗會顯示四個執行緒都已凍結。
在功能表列上，選擇偵錯，繼續好讓四個 GPU 執行緒障礙繼續在行 22 的進度，並到達在 30 列的中斷點。 [GPU 執行緒] 視窗會顯示四個先前凍結的執行緒保持已凍結和作用中狀態。
在功能表列上，選擇偵錯，繼續。
從 [平行監看式] 視窗中，您也可以解除個別或多重 GPU 執行緒。

群組 GPU 往來執行緒

快顯功能表上的其中一個執行緒在 GPU 執行緒 視窗中，選擇 Group By，位址。

[GPU 執行緒] 視窗中的執行緒會依 [位址] 來分組。位址對應到中每個已鎖定執行緒群的反組譯碼。24 的執行緒都在行 22 其中tile_barrier::wait 方法會執行。12 的執行緒是在第 32 行屏障的指令。四個這些執行緒被設定旗標。八個執行緒會在中斷點行 30。四個執行緒會凍結。下圖顯示 [GPU 執行緒] 視窗中群組的執行緒。

群組 [GPU 執行緒] 視窗中的執行緒
您也可以執行 Group By 作業，藉由開啟快顯功能表的平行監看式] 視窗中，資料格來選擇 Group By，然後再選擇 [功能表項目] 根據於您要分組執行緒的方式。

執行程式碼特定位置中的所有執行緒

您可以執行在指定的 tile 中的所有執行緒包含游標的那一行藉由執行 [執行目前 Tile 至游標處]。

若要以資料指標所標示的位置執行的所有執行緒

在已凍結的執行緒的快顯功能表中選擇解除凍結。
在程式碼編輯器中，將游標移動至列 30。
在快顯功能表的 [程式碼編輯器] 中，選擇 執行目前區塊至游標處。

先前已封鎖在第 21 行的阻礙的 24 個執行緒已經進行到 32 行。這會顯示在 GPU 執行緒視窗。

請參閱

共用方式為