是否有逻辑可以使用itextsharp从pdf文件中获取段落文本?我知道pdf只支持文本流,很难确定哪些文本流与哪个段落相关,而且我知道pdf中没有任何
<p>
标签或其他标签来确定段落。但是我尝试通过获取文本流的坐标来构建段落,但是没有成功 :(。我的代码片段在这里:private StringBuilder result = new StringBuilder();
private Vector lastBaseLine;
//to store run of texts
public List<string> strings = new List<String>();
//to store run of texts Coordinate (Y coordinate)
public List<float> baselines = new List<float>();
public void RenderText(iTextSharp.text.pdf.parser.TextRenderInfo renderInfo)
{
Vector curBaseline = renderInfo.GetBaseline().GetStartPoint();
if ((this.lastBaseLine != null) && (curBaseline[Vector.I2] != lastBaseLine[Vector.I2]))
{
if ((!string.IsNullOrEmpty(this.result.ToString())))
{
this.baselines.Add(this.lastBaseLine[Vector.I2]);
this.strings.Add(this.result.ToString());
}
result = new StringBuilder();
}
this.result.Append(renderInfo.GetText());
this.lastBaseLine = curBaseline;
}
有人针对这个问题有任何逻辑可以提供吗?