23得票2回答
为什么在使用Visual Studio运行SSIS加载时,我的ODBC连接失败,但在使用Execute Package Utility运行相同的包时却没有失败。

我正在 SSIS 2012 中处理一个数据集市加载包。在尝试在 Visual Studio 中执行该包时,出现以下错误:"The AcquireConnection method call to the connection manager Data Warehouse.ssusr faile...

22得票1回答
使用Pentaho Kettle,如何从单个表中加载多个表并保持引用完整性?

需要从一个包含10万多个记录的单个文件中加载数据,并将其分别插入到MySQL的多个表中,同时保持文件/表中定义的关系;也就是说,关系已经匹配。解决方案应该在最新版本的MySQL上运行,并且需要使用InnoDB引擎;MyISAM不支持外键。 我完全不了解使用Pentaho Data Integ...

22得票6回答
我们可以将AWS Glue视为EMR的替代品吗?

向Masters澄清一个问题,由于AWS Glue作为ETL工具可以为公司提供诸如最小化或无需服务器维护、避免过度或不足配备资源的成本节省等好处,再加上它可以在Spark上运行。我想了解一些澄清问题,即AWS Glue是否可以替代EMR? 如果两者可以共存,那么EMR如何与AWS Glue发...

21得票3回答
如何修复在平面文件中日期列出现“无效字符值用于转换规范”的问题?

我有一个CSV文件,每一行用{LF}分隔,其中包含一个日期列,日期格式为"12/20/2010"(包括引号) 我的目标列是一个SQL Server 2008数据库表,类型为日期(不是日期时间) 在我的Flat File Connection Manager中,我已将日期列配置为数据类型da...

21得票3回答
在一条语句中更改表结构并更新数据

我有一个需求,需要修改(添加2列),然后更新同一张表格。 这是我尝试的查询:ALTER TABLE A ADD c1 int,c2 varchar(10) UPDATE A set c1 = 23, c2 = 'ZZXX' 我需要同时运行上述两个查询。 我正在使用Talend ETL工具...

19得票6回答
如何从Google Analytics中提取数据并建立数据仓库(webhouse)?

我有点击流数据,例如引用URL、顶部着陆页面、顶部退出页面以及指标,如页面浏览量、访问次数、跳出率,全部在Google Analytics中。目前还没有数据库来存储所有这些信息。我需要从这些数据中构建一个数据仓库(也称为web-house)。因此,我需要每天自动地从Google Analyti...

18得票1回答
Pyodbc相对于Pypyodbc有哪些设计优势?

我知道 pyodbc 是一个较老的项目,可能更丰富和健壮,但是它基于编译后的 C 代码组件设计的内容,是否有什么优势能使它比一个纯 Python 实现更好,例如pypyodbc? 我做很多 ETL 工作,正在考虑从 Linux/Jython/JDBC 方法切换到 Windows/Cygwin...

17得票3回答
将MySQL结果集转换为NumPy数组的最有效方法是什么?

我正在使用MySQLdb和Python。我有一些基本的查询,就像这样:c=db.cursor() c.execute("SELECT id, rating from video") results = c.fetchall() 我需要将“results”转换成NumPy数组,并且希望在内存使用...

17得票4回答
通过SSMS编辑dtsx文件

我使用SSMS对应的向导创建并执行了一个dtsx: 这是为了将一个平面文件导入到现有表中。 最后,我将“包”保存为.dtsx文件 现在我需要修改列映射并重新执行此包。 是否有任何方法可以使用SQL Server Management Studio来完成这个任务? 我尝试打开文件,但...

16得票7回答
SSIS:代码页返回到65001

在我编写的SSIS包中,我的源是一个CSV文件。在连接管理器的常规页面上,代码页为65001(我在测试)。Unicode未被选中。 这些列与SQL Server目标表中的varchar列进行映射。 目标处发生错误:"columnname"列无法处理,因为对其指定了两个以上的代码页(6500...