将CSV文件转换为NetCDF

Question

将CSV文件转换为NetCDF

7

我正在尝试使用Python将.csv文件转换为netCDF4，但我无法弄清楚如何将.csv表格格式中的信息存储到netCDF中。我的主要问题是如何将列中的变量声明为可处理的netCDF4格式？我所找到的所有内容通常都是从netCDF4中提取信息到.csv或ASCII中。我已经提供了示例数据、示例代码和声明适当数组时出现的错误。任何帮助都将不胜感激。

以下是样本表：

Station Name    Country  Code   Lat Lon mn.yr   temp1   temp2   temp3   hpa 
Somewhere   US  12340   35.52   23.358  1.19    -8.3    -13.1   -5  69.5
Somewhere   US  12340           2.1971  -10.7   -13.9   -7.9    27.9
Somewhere   US  12340           3.1971  -8.4    -13 -4.3    90.8

我的样例代码如下： #!/usr/bin/env python

import scipy
import numpy
import netCDF4
import csv

from numpy import arange, dtype

#声明空数组

v1 = []
v2 = []
v3 = []
v4 = []

# 打开csv文件并为每个标题声明数组变量

f = open('station_data.csv', 'r').readlines()

for line in f[1:]:
    fields = line.split(',')
    v1.append(fields[0]) #station
    v2.append(fields[1])#country
    v3.append(int(fields[2]))#code
    v4.append(float(fields[3]))#lat
    v5.append(float(fields[3]))#lon
#more variables included but this is just an abridged list
print v1
print v2
print v3
print v4

#将数据转换为netcdf4格式，使其能够像netcdf一样工作

ncout = netCDF4.Dataset('station_data.nc','w')

# 纬度和经度。缺失数字请使用NaN

lats_out = -25.0 + 5.0*arange(v4,dtype='float32')
lons_out = -125.0 + 5.0*arange(v5,dtype='float32')

# 输出数据。

press_out = 900. + arange(v4*v5,dtype='float32') # 1d array
press_out.shape = (v4,v5) # reshape to 2d array
temp_out = 9. + 0.25*arange(v4*v5,dtype='float32') # 1d array
temp_out.shape = (v4,v5) # reshape to 2d array

# 创建纬度和经度维度。

ncout.createDimension('latitude',v4)
ncout.createDimension('longitude',v5)

# 定义坐标变量。它们将保存坐标信息

lats = ncout.createVariable('latitude',dtype('float32').char,('latitude',))
lons = ncout.createVariable('longitude',dtype('float32').char,('longitude',))

# 将单位属性分配给坐标变量数据。这将把一个文本属性附加到每个坐标变量上，其中包含单位。

lats.units = 'degrees_north'
lons.units = 'degrees_east'

# 将数据写入坐标变量。

lats[:] = lats_out
lons[:] = lons_out

# 创建压力和温度变量

press = ncout.createVariable('pressure',dtype('float32').char,('latitude','longitude'))
temp = ncout.createVariable('temperature',dtype('float32').char,'latitude','longitude'))

# 设置属性单位。

press.units =  'hPa'
temp.units = 'celsius'

# 将数据写入变量中。

press[:] = press_out
temp[:] = temp_out

ncout.close()
f.close()

错误：

Traceback (most recent call last):
  File "station_data.py", line 33, in <module>
    v4.append(float(fields[3]))#lat
ValueError: could not convert string to float:

- user3275006

错误提示说 fields[3] 中的值不是数字，因此无法转换为浮点数。请检查输入文件中该值。您还可以尝试在将其转换为浮点数并添加到列表 v4 之前打印 fields[3] 的值。 - vaibhaw

非常感谢您澄清这一点。您是正确的，仅通过打印它来使其工作，但我不确定当传输到netcdf时是否会很好地转移。这些是纬度，因此分配任何数据类型是否可以在传输到netcdf时正常工作？ - user3275006

3个回答

5

虽然上述提到的xarray是一个很好的工具，但也值得看一下英国Met Office的iris库。Iris的一个关键优势是能够创建遵循气候预测（CF-conventions）的netCDF文件。它通过提供帮助函数来定义标准名称、单位、坐标系统和其他元数据约定来实现这一点。它还提供绘图、子集和分析实用程序。

对于这样的地球科学数据，CF是netCDF文件的推荐标准。

作为其使用示例，此Python笔记本重新实现了上面的AO / NAO示例。

- ocefpaf

iris 可能很难安装，但如果您正在使用 Anaconda，则可以通过 Anaconda.org/conda-forge 渠道使用 conda install -c conda-forge iris 进行安装。 - Rich Signell

0

如果您查看输入文件，第二行中没有与列Lat对应的值。当您读取csv文件时，该值即fields[3]被存储为空字符串""。这就是为什么您会收到一个ValueError的原因。您可以定义一个新函数来处理此错误，而不是使用默认函数：

def str_to_float(str):
    try:
        number = float(str)
    except ValueError:
        number = 0.0
# you can assign an appropriate value instead of 0.0 which suits your requirement
    return number

现在你可以使用这个函数来代替内置的浮点函数，方法如下：

v4.append(str_to_float(fields[3]))

- vaibhaw

请查看这个 Stack Overflow 问题，它提供了更多关于字符串转换为整数或浮点数的见解。 - vaibhaw

非常感谢您详细的解释。我没有意识到它将其存储为空字符串。这种新方法很有道理，而且效果非常好。 - user3275006

请问有没有可能了解一下如何解决这个问题的第二部分？是否有任何资源可以提供更清晰的解释如何将上面声明的变量从 .csv 文件导入到 netCDF4 文件中？似乎没有太多关于从 .csv 转换到 netcdf 的信息。我一直在用 v (1,2,3...等) 变量替换 press_out、temp_out、lats 和 lons，但它没有注册我尝试转换成 netcdf4 格式的信息。您能否提供额外的帮助？ - user3275006

很抱歉，我不熟悉netCDF4。我认为您应该将此问题视为两个子问题：1.从csv中读取数据，将其存储在变量中（您已经完成了这一步）2.使用存储在变量中的数据来提供给netCDF变量。我认为您应该查看第二部分的文档。如果在执行此操作时出现任何错误，请发布错误信息，以便可以确定错误的原因。 - vaibhaw

谢谢你的帮助！ - user3275006

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Rich Signell · Accepted Answer

这是适合使用xarray的完美工作，它是一个代表netcdf常用数据模型的数据集对象的Python软件包。您可以尝试以下示例：

import pandas as pd
import xarray as xr

url = 'http://www.cpc.ncep.noaa.gov/products/precip/CWlink/'

ao_file = url + 'daily_ao_index/monthly.ao.index.b50.current.ascii'
nao_file = url + 'pna/norm.nao.monthly.b5001.current.ascii'

kw = dict(sep='\s*', parse_dates={'dates': [0, 1]},
          header=None, index_col=0, squeeze=True, engine='python')

# read into Pandas Series
s1 = pd.read_csv(ao_file, **kw)
s2 = pd.read_csv(nao_file, **kw)

s1.name='AO'
s2.name='NAO'

# concatenate two Pandas Series into a Pandas DataFrame
df=pd.concat([s1, s2], axis=1)

# create xarray Dataset from Pandas DataFrame
xds = xr.Dataset.from_dataframe(df)

# add variable attribute metadata
xds['AO'].attrs={'units':'1', 'long_name':'Arctic Oscillation'}
xds['NAO'].attrs={'units':'1', 'long_name':'North Atlantic Oscillation'}

# add global attribute metadata
xds.attrs={'Conventions':'CF-1.0', 'title':'AO and NAO', 'summary':'Arctic and North Atlantic Oscillation Indices'}

# save to netCDF
xds.to_netcdf('/usgs/data2/notebook/data/ao_and_nao.nc')

然后运行 ncdump -h ao_and_nao.nc 会产生以下结果：

netcdf ao_and_nao {
dimensions:
        dates = 782 ;
variables:
        double dates(dates) ;
                dates:units = "days since 1950-01-06 00:00:00" ;
                dates:calendar = "proleptic_gregorian" ;
        double NAO(dates) ;
                NAO:units = "1" ;
                NAO:long_name = "North Atlantic Oscillation" ;
        double AO(dates) ;
                AO:units = "1" ;
                AO:long_name = "Arctic Oscillation" ;

// global attributes:
                :title = "AO and NAO" ;
                :summary = "Arctic and North Atlantic Oscillation Indices" ;
                :Conventions = "CF-1.0" ;

请注意，您可以使用pip安装xarray，但如果您正在使用Anaconda Python发行版，则可以使用以下方法从Anaconda.org/conda-forge频道安装：

conda install -c conda-forge xarray