100得票6回答
在pandas中处理大型、持久化的DataFrame

我正在探索从长期使用SAS转换到Python和Pandas。 然而,今天运行一些测试时,我惊讶地发现当尝试pandas.read_csv()读取一个大小为128mb的csv文件时,Python会出现内存不足的情况。该文件有大约200,000行和200列的大多数是数字数据。 而在SAS中,...

72得票10回答
嵌套的ifelse语句

我仍在学习如何将SAS代码翻译成R,并且我收到了警告。我需要理解我犯了哪些错误。我想要做的是创建一个变量,总结并区分人口的三种状态:本地人、海外人和外国人。我有一个包含两个变量的数据库: id国籍:idnat(法国人,外国人) 如果idnat是法国人,则: id出生地:idbp(本...

46得票2回答
在Python中使用h5py处理大数据的分析工作经验?

我从事大量的统计工作,并使用Python作为主要语言。然而,我处理的一些数据集可能需要20GB的内存,这使得使用numpy、scipy和PyIMSL等内存函数来操作它们几乎是不可能的。统计分析语言SAS在这里有一个很大的优势,它可以处理硬盘中的数据,而不是严格的内存处理。但是,我想避免在SAS...

26得票4回答
高效地将SAS数据集转换为CSV

有人能告诉我将SAS数据集以编程方式快速转换为CSV文件的最佳方法吗?我知道可以使用数据步骤并输出到文件等方式。但那是唯一的方法吗? 谢谢, Adnan。

24得票5回答
有没有一种方法可以让SAS在出现第一个警告或错误时停止?

SAS喜欢在警告和错误之后继续处理,所以我经常需要滚动回日志页面以查找问题。有更好的方法吗?我希望它能在第一次出现错误或警告时停止处理,这样我就可以修复问题并重试。 SAS 常常在出现警告和错误后依然继续处理,因此我常常需要浏览整个日志页面来查找问题。 有没有更好的方式?我希望它可以在第一个...

23得票1回答
如果我从未提交,是否需要调用回滚函数?

我正在使用无需自动提交的方式连接到SQL Server,如果一切成功,我会调用commit。否则,我就退出了。我需要显式调用rollback,还是在没有提交的情况下关闭连接时它会自动回滚? 如果有影响的话,我是在SAS的proc sql中执行SQL命令。 更新:看起来SAS可能会在未调用r...

20得票3回答
SAS函数使用'power' / 指数函数

我可能漏了一些显而易见的东西,但是如何在SAS中计算“幂”呢? 例如X的平方,或Y的立方? 我需要的是变量1的variable2次方,但找不到语法……(我正在使用SAS 9.1.3)

20得票7回答
如何在SAS中检测数据集中有多少观测值(或者它是否为空)?

我想知道是否有一种方法可以检测数据集是否为空,即它没有任何观测值。 换句话说,如何获取特定数据集中的观测数量。 这样我就可以编写一个if语句来设置一些条件。 谢谢。

18得票2回答
限制PROC SQL中的结果

我正在尝试使用PROC SQL查询具有数亿条记录的DB2表。 开发阶段,我想在这些记录的任意小子集上运行查询(比如1000个)。 我尝试使用INOBS来限制观测值,但我认为该参数仅限制SAS处理的记录数。 我希望SAS仅从数据库中获取任意数量的记录(然后处理所有记录)。 如果我自己编写SQL...

18得票1回答
如何在数据框中找到元素的第一个和最后一个出现位置?

我已经全力寻找了一个在SAS DATA步骤中直接翻译FIRST和LAST指针的R语言翻译,但似乎找不到。对于那些不熟悉SAS的人来说,FIRST是一个布尔值,用于标识表格中给定元素的第一次出现,LAST是一个布尔值,用于标识最后一次出现。例如,考虑以下排序后的表格: V1 V2 ...