如何按照依赖关系排序相关对象

Question

如何按照依赖关系排序相关对象

c#algorithmsortingdependenciestopological-sort

88

我有一个集合：

List<VPair<Item, List<Item>> dependencyHierarchy;

这里有一对键值，第一个是某个对象（item），第二个是同类对象的集合，这些对象依赖于第一个对象。我想要获取一个List<Item>，按照依赖关系的顺序排列，这样就不会出现任何一个元素依赖于第一个元素之类的情况（没有循环依赖！）。

输入：

Item4 依赖于 Item3 和 Item5
Item3 依赖于 Item1
Item1 不依赖于任何人
Item2 依赖于 Item4 
Item5 不依赖于任何人

结果：

Item1
Item5
Item3
Item4
Item2

谢谢。

解决方法：

拓扑排序（感谢Loïc Février提供的思路）

以及

C#示例，Java示例（感谢xcud提供的优秀示例）

- garik

对于任何遇到此问题并正在寻找C# NuGet包的人，这是我创建的一个：https://github.com/madelson/MedallionTopologicalSort - ChaseMedallion

10个回答

49

使用拓扑排序的完美示例：

http://en.wikipedia.org/wiki/Topological_sorting

它会给你需要的东西。

您可以使用 Kahn算法 ：

L ← Empty list that will contain the sorted elements
S ← Set of all nodes with no incoming edge

while S is not empty do
    remove a node n from S
    add n to L
    for each node m with an edge e from n to m do
        remove edge e from the graph
        if m has no other incoming edges then
            insert m into S

if graph has edges then
    return error   (graph has at least one cycle)
else 
    return L   (a topologically sorted order)

...或者你可以使用深度优先搜索：

L ← Empty list that will contain the sorted nodes
while exists nodes without a permanent mark do
    select an unmarked node n
    visit(n)

function visit(node n)
    if n has a permanent mark then
        return
    if n has a temporary mark then
        stop   (not a DAG)

    mark n with a temporary mark

    for each node m with an edge from n to m do
        visit(m)

    remove temporary mark from n
    mark n with a permanent mark
    add n to head of L

- Loïc Février

13

发现一个 C# 实现的 tsort：http://tawani.blogspot.com/2009/02/topological-sorting-and-cyclic.html - xcud

19

有一个NuGet包可以解决这个问题.

对于那些不想重复造轮子的人来说：使用NuGet安装QuickGraph.NET库，其中包括多个图算法，包括拓扑排序。

要使用它，您需要创建AdjacencyGraph<,>的实例，例如AdjacencyGraph<String, SEdge<String>>。然后，如果包含适当的扩展：

using QuickGraph.Algorithms;

您可以拨打以下电话：

var sorted = myGraph.TopologicalSort();

获取已排序的节点列表。

- sinelaw

14

我喜欢DMM的答案，但它假设输入节点是叶子节点（这可能是期望的，也可能不是期望的）。

我发布了一个使用LINQ的替代解决方案，它不做出这种假设。此外，该解决方案使用yield return来快速返回叶子节点（例如使用TakeWhile）。

public static IEnumerable<T> TopologicalSort<T>(this IEnumerable<T> nodes, 
                                                Func<T, IEnumerable<T>> connected)
{
    var elems = nodes.ToDictionary(node => node, 
                                   node => new HashSet<T>(connected(node)));
    while (elems.Count > 0)
    {
        var elem = elems.FirstOrDefault(x => x.Value.Count == 0);
        if (elem.Key == null)
        {
            throw new ArgumentException("Cyclic connections are not allowed");
        }
        elems.Remove(elem.Key);
        foreach (var selem in elems)
        {
            selem.Value.Remove(elem.Key);
        }
        yield return elem.Key;
    }
}

- Krumelur

这是我迄今为止见过的最紧凑的拓扑排序实现。 - Timo

1

我不理解。你能解释一下吗？ - osexpert

1

@osexpert，算法的工作原理如下：我们需要始终使用叶子节点——不依赖于任何其他节点的节点。这段代码确保了这一点：var elem = elems.FirstOrDefault(x => x.Value.Count == 0);。特别是，x.Value.Count == 0 确保给定节点没有依赖项。 - Danylo Yelizarov

此外，这个实现是紧凑的，但不是最优的。我们在每次迭代中搜索叶子节点，使其时间复杂度为O(n^2)。可以通过在while循环之前创建一个包含所有叶子节点的队列，然后在它们变得"独立"时将新项目添加到队列中来改进它。 - Danylo Yelizarov

是的，如果我没记错，上述内容基于我为编译器处理依赖项编写的代码，该编译器有数百个模块的顺序，而且表现得相当不错。 - Krumelur

6

这是我自己重新实现的拓扑排序算法，灵感来源于 http://tawani.blogspot.com/2009/02/topological-sorting-and-cyclic.html（移植过来的 Java 源代码会消耗太多内存，检查 50k 个对象的代价为 50k*50k*4 = 10GB，这是无法接受的。此外，它仍然有一些 Java 编码约定的地方）。

using System.Collections.Generic;
using System.Diagnostics;

namespace Modules
{
    /// <summary>
    /// Provides fast-algorithm and low-memory usage to sort objects based on their dependencies. 
    /// </summary>
    /// <remarks>
    /// Definition: http://en.wikipedia.org/wiki/Topological_sorting
    /// Source code credited to: http://tawani.blogspot.com/2009/02/topological-sorting-and-cyclic.html    
    /// Original Java source code: http://www.java2s.com/Code/Java/Collections-Data-Structure/Topologicalsorting.htm
    /// </remarks>
    /// <author>ThangTran</author>
    /// <history>
    /// 2012.03.21 - ThangTran: rewritten based on <see cref="TopologicalSorter"/>.
    /// </history>
    public class DependencySorter<T>
    {
        //**************************************************
        //
        // Private members
        //
        //**************************************************

        #region Private members

        /// <summary>
        /// Gets the dependency matrix used by this instance.
        /// </summary>
        private readonly Dictionary<T, Dictionary<T, object>> _matrix = new Dictionary<T, Dictionary<T, object>>();

        #endregion


        //**************************************************
        //
        // Public methods
        //
        //**************************************************

        #region Public methods

        /// <summary>
        /// Adds a list of objects that will be sorted.
        /// </summary>
        public void AddObjects(params T[] objects)
        {
            // --- Begin parameters checking code -----------------------------
            Debug.Assert(objects != null);
            Debug.Assert(objects.Length > 0);
            // --- End parameters checking code -------------------------------

            // add to matrix
            foreach (T obj in objects)
            {
                // add to dictionary
                _matrix.Add(obj, new Dictionary<T, object>());
            }
        }

        /// <summary>
        /// Sets dependencies of given object.
        /// This means <paramref name="obj"/> depends on these <paramref name="dependsOnObjects"/> to run.
        /// Please make sure objects given in the <paramref name="obj"/> and <paramref name="dependsOnObjects"/> are added first.
        /// </summary>
        public void SetDependencies(T obj, params T[] dependsOnObjects)
        {
            // --- Begin parameters checking code -----------------------------
            Debug.Assert(dependsOnObjects != null);
            // --- End parameters checking code -------------------------------

            // set dependencies
            Dictionary<T, object> dependencies = _matrix[obj];
            dependencies.Clear();

            // for each depended objects, add to dependencies
            foreach (T dependsOnObject in dependsOnObjects)
            {
                dependencies.Add(dependsOnObject, null);
            }
        }

        /// <summary>
        /// Sorts objects based on this dependencies.
        /// Note: because of the nature of algorithm and memory usage efficiency, this method can be used only one time.
        /// </summary>
        public T[] Sort()
        {
            // prepare result
            List<T> result = new List<T>(_matrix.Count);

            // while there are still object to get
            while (_matrix.Count > 0)
            {
                // get an independent object
                T independentObject;
                if (!this.GetIndependentObject(out independentObject))
                {
                    // circular dependency found
                    throw new CircularReferenceException();
                }

                // add to result
                result.Add(independentObject);

                // delete processed object
                this.DeleteObject(independentObject);
            }

            // return result
            return result.ToArray();
        }

        #endregion


        //**************************************************
        //
        // Private methods
        //
        //**************************************************

        #region Private methods

        /// <summary>
        /// Returns independent object or returns NULL if no independent object is found.
        /// </summary>
        private bool GetIndependentObject(out T result)
        {
            // for each object
            foreach (KeyValuePair<T, Dictionary<T, object>> pair in _matrix)
            {
                // if the object contains any dependency
                if (pair.Value.Count > 0)
                {
                    // has dependency, skip it
                    continue;
                }

                // found
                result = pair.Key;
                return true;
            }

            // not found
            result = default(T);
            return false;
        }

        /// <summary>
        /// Deletes given object from the matrix.
        /// </summary>
        private void DeleteObject(T obj)
        {
            // delete object from matrix
            _matrix.Remove(obj);

            // for each object, remove the dependency reference
            foreach (KeyValuePair<T, Dictionary<T, object>> pair in _matrix)
            {
                // if current object depends on deleting object
                pair.Value.Remove(obj);
            }
        }


        #endregion
    }

    /// <summary>
    /// Represents a circular reference exception when sorting dependency objects.
    /// </summary>
    public class CircularReferenceException : Exception
    {
        /// <summary>
        /// Initializes a new instance of the <see cref="CircularReferenceException"/> class.
        /// </summary>
        public CircularReferenceException()
            : base("Circular reference found.")
        {            
        }
    }
}

- Thang Tran

4

我不喜欢递归方法，因此DMM不适用。Krumelur看起来不错，但似乎使用了很多内存？我制作了一种替代的基于堆栈的方法，似乎可行。它使用与DMM相同的DFS逻辑，我在测试时将其作为比较参考。

    public static IEnumerable<T> TopogicalSequenceDFS<T>(this IEnumerable<T> source, Func<T, IEnumerable<T>> deps)
    {
        HashSet<T> yielded = new HashSet<T>();
        HashSet<T> visited = new HashSet<T>();
        Stack<Tuple<T, IEnumerator<T>>> stack = new Stack<Tuple<T, IEnumerator<T>>>();

        foreach (T t in source)
        {
            stack.Clear();
            if (visited.Add(t))
                stack.Push(new Tuple<T, IEnumerator<T>>(t, deps(t).GetEnumerator()));

            while (stack.Count > 0)
            {
                var p = stack.Peek();
                bool depPushed = false;
                while (p.Item2.MoveNext())
                {
                    var curr = p.Item2.Current;
                    if (visited.Add(curr))
                    {
                        stack.Push(new Tuple<T, IEnumerator<T>>(curr, deps(curr).GetEnumerator()));
                        depPushed = true;
                        break;
                    }
                    else if (!yielded.Contains(curr))
                        throw new Exception("cycle");
                }

                if (!depPushed)
                {
                    p = stack.Pop();
                    if (!yielded.Add(p.Item1))
                        throw new Exception("bug");
                    yield return p.Item1;
                }
            }
        }
    }

这里也有一种更简单的基于栈的BFS变体。它会产生与上面不同但仍然有效的结果。我不确定使用上述DFS变体是否有任何优势，但创建它很有趣。

    public static IEnumerable<T> TopologicalSequenceBFS<T>(this IEnumerable<T> source, Func<T, IEnumerable<T>> dependencies)
    {
        var yielded = new HashSet<T>();
        var visited = new HashSet<T>();
        var stack = new Stack<Tuple<T, bool>>(source.Select(s => new Tuple<T, bool>(s, false))); // bool signals Add to sorted

        while (stack.Count > 0)
        {
            var item = stack.Pop();
            if (!item.Item2)
            {
                if (visited.Add(item.Item1))
                {
                    stack.Push(new Tuple<T, bool>(item.Item1, true)); // To be added after processing the dependencies
                    foreach (var dep in dependencies(item.Item1))
                        stack.Push(new Tuple<T, bool>(dep, false));
                }
                else if (!yielded.Contains(item.Item1))
                    throw new Exception("cyclic");
            }
            else
            {
                if (!yielded.Add(item.Item1))
                    throw new Exception("bug");
                yield return item.Item1;
            }
        }
    }

对于 .NET 4.7+，建议使用 ValueTuple 替换 Tuple 以减少内存使用。在旧版本的 .NET 中，可以使用 KeyValuePair 替换 Tuple。

- osexpert

喜欢 TopogicalSequenceDFS！ - unruledboy

1

我可以通过在项目本身中存储其依赖项，使这个过程变得更加简单：

public class Item
{
    private List<Item> m_Dependencies = new List<Item>();

    protected AddDependency(Item _item) { m_Dependencies.Add(_item); }

    public Item()
    {
    }; // eo ctor

    public List<Item> Dependencies {get{return(m_Dependencies);};}
} // eo class Item

有了这个，您可以为List实现一个自定义的Sort委托，该委托基于给定的Item是否包含在其他依赖项列表中进行排序：

int CompareItem(Item _1, Item _2)
{
    if(_2.Dependencies.Contains(_1))
        return(-1);
    else if(_1.Dependencies.Contains(_2))
        return(1);
    else
        return(0);
}

- Moo-Juice

3

订单不完整，因此它无法运作。每个项目都需要列出他或他的任何后代所依赖的所有项目的清单。（即构建完整的有向无环图）。很容易找到一个反例：1依赖于3和2，3依赖于4。[3 4 1 2]是按照您的算法排序的。但是3必须在1之后。 - Loïc Février

啊，谢谢。我没想到那个。非常感谢。这里来了踩的人！ :) - Moo-Juice

Loic，您能否再详细解释一下为什么我的建议行不通？我并不是说它是正确的，只是为了更好地学习。我在这里尝试了一下，对于原帖的示例和您的示例，我的结果列表都是有序的。也许是运气吧？ :) 根据您的示例（1依赖于3和2，2依赖于4），我的排序结果是[4, 3, 2, 1]。 - Moo-Juice

1

为了对列表进行排序，每个排序算法只会检查相邻元素是否已排序。在您的情况下，“已排序”意味着：第二个元素不依赖于第一个元素。[3 4 1 2]和[4, 3, 2, 1]是两种可能的顺序。该算法假定传递性：如果x <= y且y <= z，则x <= z。但在这种情况下并不成立。但是，您可以修改数据：如果x依赖于y且y依赖于z，则将z添加到x的依赖列表中。现在，您的偏序关系是完全偏序关系，可以使用排序算法。但是，“完成它”的复杂度为O（N ^ 2），而拓扑排序的复杂度为O（N）。 - Loïc Février

感谢您抽出时间进一步解释。在进一步的测试中，我的想法确实失败了。祝编程愉快！ - Moo-Juice

1

我将DMM的想法与维基百科上的深度优先搜索算法合并了起来。对于我所需要的功能，它运行得非常完美。

public static class TopologicalSorter
{
public static List<string> LastCyclicOrder = new List<string>(); //used to see what caused the cycle

sealed class ItemTag
{
  public enum SortTag
  {
    NotMarked,
    TempMarked,
    Marked
  }

  public string Item { get; set; }
  public SortTag Tag { get; set; }

  public ItemTag(string item)
  {
    Item = item;
    Tag = SortTag.NotMarked;
  }
}

public static IEnumerable<string> TSort(this IEnumerable<string> source, Func<string, IEnumerable<string>> dependencies)
{
  TopologicalSorter.LastCyclicOrder.Clear();

  List<ItemTag> allNodes = new List<ItemTag>();
  HashSet<string> sorted = new HashSet<string>(StringComparer.OrdinalIgnoreCase);

  foreach (string item in source)
  {
    if (!allNodes.Where(n => string.Equals(n.Item, item, StringComparison.OrdinalIgnoreCase)).Any())
    {
      allNodes.Add(new ItemTag(item)); //don't insert duplicates
    }
    foreach (string dep in dependencies(item))
    {
      if (allNodes.Where(n => string.Equals(n.Item, dep, StringComparison.OrdinalIgnoreCase)).Any()) continue; //don't insert duplicates
      allNodes.Add(new ItemTag(dep));
    }
  }

  foreach (ItemTag tag in allNodes)
  {
    Visit(tag, allNodes, dependencies, sorted);
  }

  return sorted;
}

static void Visit(ItemTag tag, List<ItemTag> allNodes, Func<string, IEnumerable<string>> dependencies, HashSet<string> sorted)
{
  if (tag.Tag == ItemTag.SortTag.TempMarked)
  {
    throw new GraphIsCyclicException();
  }
  else if (tag.Tag == ItemTag.SortTag.NotMarked)
  {
    tag.Tag = ItemTag.SortTag.TempMarked;
    LastCyclicOrder.Add(tag.Item);

    foreach (ItemTag dep in dependencies(tag.Item).Select(s => allNodes.Where(t => string.Equals(s, t.Item, StringComparison.OrdinalIgnoreCase)).First())) //get item tag which falls with used string
      Visit(dep, allNodes, dependencies, sorted);

    LastCyclicOrder.Remove(tag.Item);
    tag.Tag = ItemTag.SortTag.Marked;
    sorted.Add(tag.Item);
  }
}
}

- user1132959

1

一种不同的想法，适用于只有一个“父级”依赖的情况：

不是使用依赖项，而是存储父级。
这样，您可以非常容易地确定问题是否是其他问题的依赖项。
然后使用Comparable<T>，它将声明依赖项为“较小”，依赖关系为“较大”。
然后只需调用Collections.sort(List<T>, ParentComparator<T>);

对于多个父级的情况，需要进行树搜索，这会导致执行缓慢。但是，可以通过A*排序矩阵的缓存来解决这个问题。

- Ondra Žižka

0

这是从https://dev59.com/0G855IYBdhLWcg3w3IRh#9991916中重构的代码。

// Version 1
public static class TopologicalSorter<T> where T : class {

    public struct Item {
        public readonly T Object;
        public readonly T Dependency;
        public Item(T @object, T dependency) {
            Object = @object;
            Dependency = dependency;
        }
    }


    public static T[] Sort(T[] objects, Func<T, T, bool> isDependency) {
        return Sort( objects.ToList(), isDependency ).ToArray();
    }

    public static T[] Sort(T[] objects, Item[] dependencies) {
        return Sort( objects.ToList(), dependencies.ToList() ).ToArray();
    }


    private static List<T> Sort(List<T> objects, Func<T, T, bool> isDependency) {
        return Sort( objects, GetDependencies( objects, isDependency ) );
    }

    private static List<T> Sort(List<T> objects, List<Item> dependencies) {
        var result = new List<T>( objects.Count );

        while (objects.Any()) {
            var obj = GetIndependentObject( objects, dependencies );
            RemoveObject( obj, objects, dependencies );
            result.Add( obj );
        }

        return result;
    }

    private static List<Item> GetDependencies(List<T> objects, Func<T, T, bool> isDependency) {
        var dependencies = new List<Item>();

        for (var i = 0; i < objects.Count; i++) {
            var obj1 = objects[i];
            for (var j = i + 1; j < objects.Count; j++) {
                var obj2 = objects[j];
                if (isDependency( obj1, obj2 )) dependencies.Add( new Item( obj1, obj2 ) ); // obj2 is dependency of obj1
                if (isDependency( obj2, obj1 )) dependencies.Add( new Item( obj2, obj1 ) ); // obj1 is dependency of obj2
            }
        }

        return dependencies;
    }


    private static T GetIndependentObject(List<T> objects, List<Item> dependencies) {
        foreach (var item in objects) {
            if (!GetDependencies( item, dependencies ).Any()) return item;
        }
        throw new Exception( "Circular reference found" );
    }

    private static IEnumerable<Item> GetDependencies(T obj, List<Item> dependencies) {
        return dependencies.Where( i => i.Object == obj );
    }

    private static void RemoveObject(T obj, List<T> objects, List<Item> dependencies) {
        objects.Remove( obj );
        dependencies.RemoveAll( i => i.Object == obj || i.Dependency == obj );
    }

}


// Version 2
public class TopologicalSorter {

    public static T[] Sort<T>(T[] source, Func<T, T, bool> isDependency) {
        var list = new LinkedList<T>( source );
        var result = new List<T>();

        while (list.Any()) {
            var obj = GetIndependentObject( list, isDependency );
            list.Remove( obj );
            result.Add( obj );
        }

        return result.ToArray();
    }

    private static T GetIndependentObject<T>(IEnumerable<T> list, Func<T, T, bool> isDependency) {
        return list.First( i => !GetDependencies( i, list, isDependency ).Any() );
    }

    private static IEnumerable<T> GetDependencies<T>(T obj, IEnumerable<T> list, Func<T, T, bool> isDependency) {
        return list.Where( i => isDependency( obj, i ) ); // i is dependency of obj
    }

}

- Denis535

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Mesmo · Accepted Answer

我曾经为此苦苦挣扎，这是我尝试编写的一个 Linq 风格的 TSort 扩展方法：

public static IEnumerable<T> TSort<T>( this IEnumerable<T> source, Func<T, IEnumerable<T>> dependencies, bool throwOnCycle = false )
{
    var sorted = new List<T>();
    var visited = new HashSet<T>();

    foreach( var item in source )
        Visit( item, visited, sorted, dependencies, throwOnCycle );

    return sorted;
}

private static void Visit<T>( T item, HashSet<T> visited, List<T> sorted, Func<T, IEnumerable<T>> dependencies, bool throwOnCycle )
{
    if( !visited.Contains( item ) )
    {
        visited.Add( item );

        foreach( var dep in dependencies( item ) )
            Visit( dep, visited, sorted, dependencies, throwOnCycle );

        sorted.Add( item );
    }
    else
    {
        if( throwOnCycle && !sorted.Contains( item ) )
            throw new Exception( "Cyclic dependency found" );
    }
}