如果你指的是网络流量,Hdfs使用写入管道。假设副本系数为3,则数据流如下:
客户端 --> 数据节点1 --> 数据节点2 --> 数据节点3
如果数据大小为30mb,则总流量为90mb再加上一点开销(用于连接创建、数据包头部、数据包中的数据校验和)。
如果你指的是流量速率。我认为目前Hdfs没有为客户端 <-> DN 或 DN <-> DN 之间提供带宽控制。它将尽可能利用所有可获得的带宽。
如果你注意到老数据节点和新数据节点之间有更多的数据流动,那么可能发生在之前某些块的副本数量不足的情况下。在添加新节点后,NameNode会定期从旧的DNs调度复制任务到其他DNs(不一定是新的节点)。
等一下!!你的意思是在数据传输期间带宽被过度利用了,或者在放置数据后DNs没有平衡,因为负载均衡器用于平衡集群中节点上存在的数据量。