Visual Studio CPU 使用率工具可定位并发争用:勾选收集争用数据,按 Blocked Time 排序,关注 Monitor.Enter 等锁调用栈;dotnet-trace + PerfView 分析线程池队列堆积;dotnet-dump 查锁持有链;避免将异步等待误判为瓶颈。
Visual Studio 自带的 CPU 使用率 工具(非第三方 Profiler)是排查 C# 并发瓶颈最直接的方式。它能显示线程状态(Running / Blocked / Waiting)、调用堆栈、以及哪些方法在锁上卡住。关键不是看“谁耗 CPU 高”,而是找大量线程长期处于 Wait 或 Blocked 状态的热点。
Collect .NET allocation and contention data(否则看不到锁等待和线程阻塞详情)Threads 视图,按 Blocked Time (ms) 降序排列,重点关注 Monitor.Enter、ConcurrentQueue.Enqueue 、SpinWait.SpinOnce 等调用栈object 实例上调用 Monitor.Enter,说明存在锁争用;若堆栈指向 lock (_syncRoot) 或 Monitor.Enter(_locker),且 _locker 是共享实例,就是瓶颈点ThreadPool 饱和与队列堆积当并发请求激增但吞吐不升反降,常因线程池任务排队过长,而非 CPU 不够。此时 dotnet-trace 可捕获 Microsoft-Extensions-Logging 和 Microsoft-DotNet-ILCompiler 之外的关键 provider:Microsoft-DotNet-ThreadPool。
dotnet-trace collect --providers Microsoft-DotNet-ThreadPool:0x1000000000000000:4,Microsoft-DotNet-ThreadPool:0x2000000000000000:4 --process-id
ThreadPool > WorkerThreadQueueLength 计数器,观察是否持续 > 0;若平均值 > 5,说明任务提交速率远超线程处理能力ThreadPool > WorkerThreadStart 事件间隔:若新线程启动延迟 > 100ms,说明系统已接近线程池上限(默认 max worker threads = min(1000, #cores × 500)),需调用 ThreadPool.SetMaxThreads 或改用 Task.Run + 自定义 TaskScheduler
dotnet-dump 查看运行时线程锁持有链当应用挂起或响应极慢,且怀疑死锁或长持锁,dotnet-dump 比实时 Profiler 更可靠——它能抓取完整托管堆和线程上下文,包括每个线程当前持有的 Monitor 和正在等待的 obj 地址。
dotnet-dump collect -p
dotnet-dump analyze找出状态为-c "threads -s" | findstr "Lock"
Waiting on lock 的线程0x1a),执行:dumpheap -stat+
dumpobj确认该对象是否被其他线程
Monitor.Enter 后未释放ConcurrentDictionary 的分段锁:若多个线程反复操作同一 key(尤其 hash 冲突高时),可能挤在同一个 segment 上,表现为单个 object 被频繁 Monitor.Enter
await Task.Delay、await httpClient.GetAsync 或 EF Core 的 ToListAsync 等操作,在 Profiler 中常显示为线程“空闲”或“未运行”,但这不是瓶颈——它们本就不该占 CPU。真正要盯的是那些本该异步却用了同步阻塞的调用。
.Result 或 .Wait():Profiler 中会显示线程在
Task.InternalWait 或 ThreadPool.WaitCallback 上长时间 Blocked
SqlConnection 且未及时 Dispose,连接池耗尽会导致后续请求在 SqlConnection.Open 上无限等待(表现类似锁争用,但根源是资源池)ValueTask 误用:重复 await 同一个已完成的 ValueTask 会抛 InvalidOperationException,某些 Profiler 会将其归类为“异常开销”,掩盖真实问题并发瓶颈往往不在代码写法多炫酷,而在共享状态的粒度是否合理、线程资源是否被隐式耗尽、以及同步/异步边界是否被无意打破。跑一次 dotnet-trace + dotnet-dump 组合,比读十篇锁优化文章更能定位你进程里那个卡住的 object 实例。