28得票10回答
测试大型代码块(映射,翻译等)的单元测试

我们对大部分的业务逻辑进行单元测试,但在如何最好地测试某些大型服务任务和导入/导出例程方面卡住了。例如,考虑将薪资数据从一个系统导出到第三方系统。为了按公司需要的格式导出数据,我们需要访问约40个表格,这会导致创建测试数据和模拟依赖项变得非常困难。 例如,考虑以下内容(大约3500行导出代码...

28得票3回答
DAG(有向无环图)动态作业调度程序

我需要管理一组 ETL 任务的工作流,这些任务的执行取决于时间、数据可用性或外部事件。在工作流执行期间,可能会有一些任务失败,系统应该有能力重新启动失败的分支而不必等待整个工作流执行完。 有没有 Python 中可以处理这种情况的框架? 我看到几个核心功能: DAG 构建 节点的执行 ...

26得票3回答
向Airflow日志中添加日志记录

如何将自己的日志添加到自动生成的Apache Airflow日志中?任何打印语句都不会被记录在里面,所以我想知道如何添加我的日志,以便在UI上显示出来?

25得票2回答
如何向DataFrame添加一个新的结构列

我目前正在尝试从MongoDB中提取数据库,并使用Spark将其导入到ElasticSearch中,并使用geo_points。 Mongo数据库具有纬度和经度值,但ElasticSearch要求将它们转换为geo_point 类型。 在Spark中是否有一种方法可以将lat和lon 列复...

25得票3回答
SSIS - 如何在脚本任务中访问 RecordSet 变量

如何在脚本任务中访问RecordSet变量?

24得票1回答
Java Spring Batch与Apache Spark的ETL基准测试比较

我已经使用Apache Spark + Scala工作了5年以上(学术和专业经验),我始终认为Spark / Scala是构建任何类型的批处理或流式ETL / ELT应用程序的强大组合。 但最近,我的客户决定在我们的两个主要管道中使用Java Spring Batch: 从MongoDB...

24得票3回答
动态分配文件名到Excel连接字符串

这是我第一次使用SQL Server 2012中的SSIS。我成功地读取了Excel文件并将其内容加载到SQL Server 2012中的表中。该任务是一个简单的直接读取Excel文件,然后将其复制到SQL Server中,目前没有验证或转换。任务成功完成。但当我尝试从变量而不是原始硬编码文件...

24得票1回答
在 Visual Studio 中缺少 SSIS 工具箱

我在本机上运行SQL Server 2014。我已经安装了Visual Studio 2017的SSDT,我也有这个软件。现在我无法在我的Visual Studio中找到SSIS工具箱。我需要重新安装整个SSDT吗?请告知,先感谢您。

23得票4回答
SSIS包的dtsConfig文件是否可以使用相对路径?

我正在尝试使我们的SQL Server Integration Services包尽可能地可移植,唯一阻碍它的是配置文件的路径始终是绝对路径,这使得测试和部署变得棘手。有没有建议可以使其更易于管理? 另一个问题是当另一个开发人员从源代码控制中获取软件包时,路径是特定于开发人员的机器。

23得票4回答
Java ETL:很难找到一个合适的

我正在寻找一个可嵌入的Java ETL(抽取、转换、装载)引擎,即可以从Java代码中调用的引擎。 我发现很难找到一个合适的引擎。 主要考虑将分隔符文本文件加载到数据库表中,并在此过程中进行一些小的转换。 我想要以下功能: 能够外部指定简单的映射,例如将文本列5映射到数据库列foo,...