我正在尝试对字符串进行清理,最终得到以下内容:
以下是我的当前解决方案:
我需要去除lt、i、gt,因为它们是HTML实体缩写,不能被移除。有什么最好的方法或其他解决方案可以考虑吗?从成熟的粉煤灰酸性矿水中分离出的 lt i gt Bacillus lt i gt sp UWC 中的砷抗性基因的特征描述
以下是我的当前解决方案:
/**
* @return string
*/
public function getFormattedTitle()
{
$string = preg_replace('/[^A-Za-z0-9\-]/', ' ', filter_var($this->getTitle(), FILTER_SANITIZE_STRING));
return $string;
}
这里是一个输入字符串的示例:
Assessing <i>Clivia</i> taxonomy using the core DNA barcode regions, <i>matK</i> and <i>rbcLa</i>
谢谢!