如何使用正则表达式解析化学式？

Question

如何使用正则表达式解析化学式？

7

我有一个模式列表：

patterns=['H', 'He', 'Li', 'Be', 'B', 'C', 'N', 'O', 'F', 'Ne', 'Na', 'Mg', 'Al',
       'Si', 'P', 'S', 'Cl', 'Ar', 'K', 'Ca', 'Sc', 'Ti', 'V', 'Cr', 'Mn',
       'Fe', 'Co', 'Ni', 'Cu', 'Zn', 'Ga', 'Ge', 'As', 'Se', 'Br', 'Kr', 'Rb',
       'Sr', 'Y', 'Zr', 'Nb', 'Mo', 'Tc', 'Ru', 'Rh', 'Pd', 'Ag', 'Cd', 'In',
       'Sn', 'Sb', 'Te', 'I', 'Xe', 'Cs', 'Ba', 'La', 'Ce', 'Pr', 'Nd', 'Pm',
       'Sm', 'Eu', 'Gd', 'Tb', 'Dy', 'Ho', 'Er', 'Tm', 'Yb', 'Lu', 'Hf', 'Ta',
       'W', 'Re', 'Os', 'Ir', 'Pt', 'Au', 'Hg', 'Tl', 'Pb', 'Bi', 'Po', 'At',
       'Rn']

我有一个包含字符串的大数据框，例如：

str0='Mg0.97Fe0.03B2'
str1='Tl0.5Hg0.5Ba2Ca2Cu3O8'

我正在尝试这个：

keyss=list(filter(None,regex.split("[^a-zA-Z]*",somestring)))
values=list(filter(None,regex.split("[^0-9.0-9]*",somestring)))

有时候，这样做是有效的：

str3='Hg0.75SrBa2Ca2Cu3O8'
keyss=list(filter(None,regex.split("[^a-zA-Z]*",str3)))
values=list(filter(None,regex.split("[^0-9.0-9]*",str3))
['Ba', 'Fe', 'Co', 'Mn', 'As']
['1', '1.832', '0.15', '0.018', '2']

然而，如果我有这样一个字符串：

str3='Hg0.75SrBa2Ca2Cu3O8'
keyss=list(filter(None,regex.split("[^a-zA-Z]*",str3)))
values=list(filter(None,regex.split("[^0-9.0-9]*",str3)))
['Hg', 'SrBa', 'Ca', 'Cu', 'O']!=['Hg', 'Sr','Ba', 'Ca', 'Cu', 'O']
['0.75', '2', '2', '3', '8']!=['0.75', '1','2', '2', '3', '8']

或者这样

str4='NbSn3'
keyss=list(filter(None,regex.split("[^a-zA-Z]*",str4)))
values=list(filter(None,regex.split("[^0-9.0-9]*",str4)))
['NbSn']!=['Nb','Sn']
['3']!=['1','3']
str4='Pb1.4Sr4Y1.2Ca0.8Cu4.6O'
...

我的代码出现了问题，如何修复它？

- Oleg

2

请查看 https://pypi.org/project/chemparse/ 。您可能会发现它很有用。 - Equinox

这里的最终目标是什么？给定一个IUPAC化学式字符串，您想要什么输出？ - Tim Biegeleisen

HS [1,1] 的输出应该是什么？ - Equinox

输出应该是[1,1]，感谢pypi.org/project/chemparse这个库的帮助，它可以很好地解析所有字符串，除了一个'BaKBi1O3'。 - Oleg

最终目标是创建一个用于训练一些机器学习模型的数据库。 - Oleg

2个回答

0

使用

import pandas as pd

patterns=['H', 'He', 'Li', 'Be', 'B', 'C', 'N', 'O', 'F', 'Ne', 'Na', 'Mg', 'Al',
       'Si', 'P', 'S', 'Cl', 'Ar', 'K', 'Ca', 'Sc', 'Ti', 'V', 'Cr', 'Mn',
       'Fe', 'Co', 'Ni', 'Cu', 'Zn', 'Ga', 'Ge', 'As', 'Se', 'Br', 'Kr', 'Rb',
       'Sr', 'Y', 'Zr', 'Nb', 'Mo', 'Tc', 'Ru', 'Rh', 'Pd', 'Ag', 'Cd', 'In',
       'Sn', 'Sb', 'Te', 'I', 'Xe', 'Cs', 'Ba', 'La', 'Ce', 'Pr', 'Nd', 'Pm',
       'Sm', 'Eu', 'Gd', 'Tb', 'Dy', 'Ho', 'Er', 'Tm', 'Yb', 'Lu', 'Hf', 'Ta',
       'W', 'Re', 'Os', 'Ir', 'Pt', 'Au', 'Hg', 'Tl', 'Pb', 'Bi', 'Po', 'At',
       'Rn']
rx = fr'({"|".join(sorted(patterns, key=len,reverse=True))})(\d+(?:\.\d+)?)?'
df = pd.DataFrame({'formulas' : ['Mg0.97Fe0.03B2', 'Tl0.5Hg0.5Ba2Ca2Cu3O8', 'Hg0.75SrBa2Ca2Cu3O8', 'NbSn3']})
df['result'] = df['formulas'].str.findall(rx)
df['result'] = df['result'].apply(lambda m: [(x,y) if y else (x,1) for x,y in m])

结果

>>> df
                formulas                                                     result
0         Mg0.97Fe0.03B2                           [(Mg, 0.97), (Fe, 0.03), (B, 2)]
1  Tl0.5Hg0.5Ba2Ca2Cu3O8  [(Tl, 0.5), (Hg, 0.5), (Ba, 2), (Ca, 2), (Cu, 3), (O, 8)]
2    Hg0.75SrBa2Ca2Cu3O8   [(Hg, 0.75), (Sr, 1), (Ba, 2), (Ca, 2), (Cu, 3), (O, 8)]
3                  NbSn3                                         [(Nb, 1), (Sn, 3)]

- Ryszard Czech

如果解决方案有任何问题，我很乐意听取意见。 - Ryszard Czech

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- sophros · Accepted Answer

我猜您在开始时使用了“模式”（patterns），然后放弃了这个想法，这可能并不有用（您可以在“pyparsing”语法中使用它），但确实有一种更简单的方法遵循您后来的想法。

我建议您像这样做：

str3='Hg0.75SrBa2Ca2Cu3O8'
splitted = list(regex.split("([A-Z][a-z]*)",str3))
keyss = list(filter(lambda a: a[0].isupper() if a else False, splitted))
values = list(filter(lambda a: a[0].isdigit() if a else False, splitted))
print(keyss, values)

['汞', '锶', '钡', '钙', '铜', '氧'] ['0.75', '2', '2', '3', '8']