常规的 Hashtable 在并行计算时,会出现冲突错误!
Concurrent*** 是适合于并行计算的数据集系列
https://learn.microsoft.com/zh-cn/dotnet/api/system.collections.concurrent?view=net-9.0
提供多个线程安全的集合类,这些类应在多个线程同时访问集合时代替 System.Collections 和 System.Collections.Generic 命名空间中的相应类型。
但是,不保证通过扩展方法或通过显式接口实现访问集合对象的元素是线程安全的,并且可能需要由调用方同步。
|-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| BlockingCollection<T> | 为实现 IProducerConsumerCollection<T>的线程安全集合提供阻塞和边界功能。 |
| ConcurrentBag<T> | 表示对象的线程安全无序集合。 |
| ConcurrentDictionary<TKey,TValue> | 表示可同时由多个线程访问的键/值对的线程安全集合。 |
| ConcurrentQueue<T> | 表示线程安全的先出 (FIFO) 集合。 |
| ConcurrentStack<T> | 表示线程安全最后一次传入 (LIFO) 集合。 |
| OrderablePartitioner<TSource> | 表示将可排序数据源拆分为多个分区的特定方式。 |
| Partitioner | 为数组、列表和可枚举提供常见的分区策略。 |
| Partitioner<TSource> | 表示将数据源拆分为多个分区的特定方式。 |
cs
ConcurrentDictionary<string, int>[] hash = new ConcurrentDictionary<string, int>[N];
for (int i = 0; i < N; i++) hash[i] = new ConcurrentDictionary<string, int>();
// 并行计算方法
Parallel.For(0, records.Count, i =>
{
EMRRecord emr = records[i];
EMRInfo eri = new EMRInfo();
eri.split_to_chapters(emr);
foreach (EMRChapter ch in eri.chapters)
{
int div = division_by_name(ch.name);
if (div < 0) continue;
if (div >= N) continue;
for (int j = 0; j < ch.content.Length; j++)
{
string s1 = ch.content.Substring(j, 1);
if (Char.IsLetter(s1[0]) || StringHelper.IsChinese(s1))
{
if (!hash[div].ContainsKey(s1))
{
hash[div].TryAdd(s1, 1);
}
else
{
hash[div][s1] = (int)hash[div][s1] + 1;
}
}
}
}
});