improve comp zi formulation

marchdf · marchdf · commit 51374e3b2c85 · 2025-09-02T13:05:46.000-06:00
diff --git a/amr-wind/utilities/SecondMomentAveraging.cpp b/amr-wind/utilities/SecondMomentAveraging.cpp
@@ -146,6 +146,8 @@ void SecondMomentAveraging::compute_average(
     const int ncomp2 = m_plane_average2.ncomp();
     const int nmoments = m_num_moments;
 
+      BL_PROFILE_VAR("amr-wind::SecondMomentAveraging::compute_average_a", ab);
+
 #ifdef AMREX_USE_OMP
 #pragma omp parallel if (amrex::Gpu::notInLaunchRegion())
 #endif
@@ -197,6 +199,7 @@ void SecondMomentAveraging::compute_average(
                 }
             });
     }
+    BL_PROFILE_VAR_STOP(ab);
 
     lfluc.copyToHost(
         m_second_moments_line.data(), m_second_moments_line.size());
diff --git a/amr-wind/wind_energy/ABLStats.cpp b/amr-wind/wind_energy/ABLStats.cpp
@@ -237,47 +237,119 @@ void ABLStats::compute_zi()
                      .create_scratch_field(3, m_temperature.num_grow()[0]);
     fvm::gradient(*gradT, m_temperature);
 
-    // Only compute zi using coarsest level
+//     // Only compute zi using coarsest level
+//     BL_PROFILE_VAR("amr-wind::ABLStats::compute_zi_a", ab);
     const int lev = 0;
     const int dir = m_normal_dir;
     const auto& geom = (this->m_sim.repo()).mesh().Geom(lev);
     auto const& domain_box = geom.Domain();
-    const auto& gradT_arrs = (*gradT)(lev).const_arrays();
-    auto device_tg_fab = amrex::ReduceToPlane<
-        amrex::ReduceOpMax, amrex::KeyValuePair<amrex::Real, int>>(
-        dir, domain_box, m_temperature(lev),
-        [=] AMREX_GPU_DEVICE(int nbx, int i, int j, int k)
-            -> amrex::KeyValuePair<amrex::Real, int> {
-            const amrex::IntVect iv(i, j, k);
-            return {gradT_arrs[nbx](i, j, k, dir), iv[dir]};
+//     const auto& gradT_arrs = (*gradT)(lev).const_arrays();
+//     auto device_tg_fab = amrex::ReduceToPlane<
+//         amrex::ReduceOpMax, amrex::KeyValuePair<amrex::Real, int>>(
+//         dir, domain_box, m_temperature(lev),
+//         [=] AMREX_GPU_DEVICE(int nbx, int i, int j, int k)
+//             -> amrex::KeyValuePair<amrex::Real, int> {
+//             const amrex::IntVect iv(i, j, k);
+//             return {gradT_arrs[nbx](i, j, k, dir), iv[dir]};
+//         });
+//     BL_PROFILE_VAR_STOP(ab);
+
+//     BL_PROFILE_VAR("amr-wind::ABLStats::compute_zi_b", bb);
+// #ifdef AMREX_USE_GPU
+//     amrex::BaseFab<amrex::KeyValuePair<amrex::Real, int>> pinned_tg_fab(
+//         device_tg_fab.box(), device_tg_fab.nComp(), amrex::The_Pinned_Arena());
+//     amrex::Gpu::dtoh_memcpy(
+//         pinned_tg_fab.dataPtr(), device_tg_fab.dataPtr(),
+//         pinned_tg_fab.nBytes());
+// #else
+//     auto& pinned_tg_fab = device_tg_fab;
+// #endif
+//     BL_PROFILE_VAR_STOP(bb);
+
+//     BL_PROFILE_VAR("amr-wind::ABLStats::compute_zi_barrier", barrier);
+//     amrex::ParallelDescriptor::Barrier();
+//     BL_PROFILE_VAR_STOP(barrier);
+        
+//     BL_PROFILE_VAR("amr-wind::ABLStats::compute_zi_c", cb);
+//     amrex::ParallelReduce::Max(
+//         pinned_tg_fab.dataPtr(), static_cast<int>(pinned_tg_fab.size()),
+//         amrex::ParallelDescriptor::IOProcessorNumber(),
+//         amrex::ParallelDescriptor::Communicator());
+//     BL_PROFILE_VAR_STOP(cb);
+
+//     BL_PROFILE_VAR("amr-wind::ABLStats::compute_zi_d", db);
+//     if (amrex::ParallelDescriptor::IOProcessor()) {
+//         const auto dnval = m_dn;
+//         auto* p = pinned_tg_fab.dataPtr();
+//         m_zi = amrex::Reduce::Sum<amrex::Real>(
+//             pinned_tg_fab.size(),
+//             [=] AMREX_GPU_DEVICE(int i) noexcept -> amrex::Real {
+//                 return (p[i].second() + 0.5) * dnval;
+//             },
+//             0.0);
+//         m_zi /= static_cast<amrex::Real>(pinned_tg_fab.size());
+//     }
+//     BL_PROFILE_VAR_STOP(db);
+
+    AMREX_ALWAYS_ASSERT(domain_box.smallEnd() == 0); // We could relax this if necessary.
+    amrex::Array<bool,AMREX_SPACEDIM> decomp{AMREX_D_DECL(true,true,true)};
+    decomp[dir] = false; // no domain decompose in the dir direction.
+    auto new_ba = amrex::decompose(domain_box, amrex::ParallelDescriptor::NProcs(), decomp);
+
+    amrex::Vector<int> pmap(new_ba.size());
+    std::iota(pmap.begin(), pmap.end(), 0);
+    amrex::DistributionMapping new_dm(std::move(pmap));
+
+    amrex::MultiFab new_mf(new_ba, new_dm, 1, 0);
+    new_mf.ParallelCopy((*gradT)(lev), dir, 0, 1);
+
+    amrex::Real zi_sum = 0;
+    int myproc = amrex::ParallelDescriptor::MyProc();
+    if (myproc < new_mf.size()) {
+        auto const& a = new_mf.const_array(myproc);
+        amrex::Box box2d = amrex::makeSlab(amrex::Box(a), dir, 0);
+        AMREX_ALWAYS_ASSERT(dir == 2); // xxxxx TODO: we can support other directions later
+        // xxxxx TODO: sycl can be supported in the future.
+        // xxxxx TODO: we can support CPU later.
+        const int nblocks = box2d.numPts();
+        constexpr int nthreads = 128;
+        const int lenx = box2d.length(0);
+        const int lenz = domain_box.length(2);
+        const int lox = box2d.smallEnd(0);
+        const int loy = box2d.smallEnd(1);
+        amrex::Gpu::DeviceVector<int> tmp(nblocks);
+        auto* ptmp = tmp.data();
+        amrex::launch<nthreads>(nblocks, amrex::Gpu::gpuStream(),
+                                [=] AMREX_GPU_DEVICE()
+        {
+            const int j = int(blockIdx.x) /   lenx + loy;
+            const int i = int(blockIdx.x) - j*lenx +lox;
+            amrex::KeyValuePair<amrex::Real,int> r{std::numeric_limits<amrex::Real>::lowest(),0};
+            for (int k = threadIdx.x; k < lenz; k += nthreads) {
+              if (a(i,j,k) > r.first()) { r.second() = k; r.first() = a(i,j,k);}
+            }
+            r = amrex::Gpu::blockReduceMax<nthreads>(r);
+            if (threadIdx.x == 0) {
+                ptmp[blockIdx.x] = r.second();
+            }
         });
 
-#ifdef AMREX_USE_GPU
-    amrex::BaseFab<amrex::KeyValuePair<amrex::Real, int>> pinned_tg_fab(
-        device_tg_fab.box(), device_tg_fab.nComp(), amrex::The_Pinned_Arena());
-    amrex::Gpu::dtoh_memcpy(
-        pinned_tg_fab.dataPtr(), device_tg_fab.dataPtr(),
-        pinned_tg_fab.nBytes());
-#else
-    auto& pinned_tg_fab = device_tg_fab;
-#endif
+        const auto dnval = m_dn;
+        zi_sum = amrex::Reduce::Sum<amrex::Real>
+            (nblocks, [=] AMREX_GPU_DEVICE (int iblock)
+                {
+                    return (ptmp[iblock] + amrex::Real(0.5)) * dnval;
+                });
+    }
 
-    amrex::ParallelReduce::Max(
-        pinned_tg_fab.dataPtr(), static_cast<int>(pinned_tg_fab.size()),
-        amrex::ParallelDescriptor::IOProcessorNumber(),
-        amrex::ParallelDescriptor::Communicator());
+    amrex::ParallelReduce::Sum(zi_sum, amrex::ParallelDescriptor::IOProcessorNumber(),
+                               amrex::ParallelDescriptor::Communicator());
 
-    if (amrex::ParallelDescriptor::IOProcessor()) {
-        const auto dnval = m_dn;
-        auto* p = pinned_tg_fab.dataPtr();
-        m_zi = amrex::Reduce::Sum<amrex::Real>(
-            pinned_tg_fab.size(),
-            [=] AMREX_GPU_DEVICE(int i) noexcept -> amrex::Real {
-                return (p[i].second() + 0.5) * dnval;
-            },
-            0.0);
-        m_zi /= static_cast<amrex::Real>(pinned_tg_fab.size());
+    amrex::Long npts = 1;
+    for (int idim = 0; idim < AMREX_SPACEDIM; ++idim) {
+        if (idim != dir) { npts *= domain_box.length(idim); }
     }
+    m_zi = zi_sum / static_cast<amrex::Real>(npts);
 }
 
 void ABLStats::process_output()

Original file line number	Diff line number	Diff line change
`@@ -146,6 +146,8 @@ void SecondMomentAveraging::compute_average(`
`146`	`146`	`const int ncomp2 = m_plane_average2.ncomp();`
`147`	`147`	`const int nmoments = m_num_moments;`
`148`	`148`
	`149`	`+ BL_PROFILE_VAR("amr-wind::SecondMomentAveraging::compute_average_a", ab);`
	`150`	`+`
`149`	`151`	`#ifdef AMREX_USE_OMP`
`150`	`152`	`#pragma omp parallel if (amrex::Gpu::notInLaunchRegion())`
`151`	`153`	`#endif`
`@@ -197,6 +199,7 @@ void SecondMomentAveraging::compute_average(`
`197`	`199`	`}`
`198`	`200`	`});`
`199`	`201`	`}`
	`202`	`+ BL_PROFILE_VAR_STOP(ab);`
`200`	`203`
`201`	`204`	`lfluc.copyToHost(`
`202`	`205`	`m_second_moments_line.data(), m_second_moments_line.size());`