Opendetex 适用于 Windows 和 Linux(在 Mac 上也可以编译)。它可以从 https://github.com/pkubowicz/opendetex 下载。
用法:
detex project
打开 project.tex 文件,读取使用 \include 或 \includeonly 命令包含的所有文件,将其输出到标准输出。
detex -n project > out.txt
打开 project.tex 文件,不跟随 \include 或 \includeonly 命令,将结果输出到 out.txt 文件中。
detex --help
显示完整帮助信息
将其解压缩到您选择的任何目录。假设您将其解压缩到 Downloads 目录下。
在该目录中创建另一个任意名称的目录(这是可选但建议的)。假设该目录名为“my_paper”。将您的论文放入“my_paper”目录中。假设您的论文名称为 project.tex。
导航到该路径。
cd ~/Downloads/opendetex
运行该命令
detex my_paper/project.tex > out.txt
通用表格
detex -n full_path_to_tex_file.tex > output_text_file.txt
detex: warning: can't open file
- Wet FeetCatDVI 可以将 DVI 转换为文本,并尝试保留格式。
-u
选项将其通过 fmt(1) 进行管道传输。 - Nietzche-joucatdvi foo.dvi | perl -pe 's/[ ]+/ /g'
给我比 fmt
更合理的输出。 - Frank找不到-lkpathsea
- ar2015如果您正在使用 pdflatex
,您可能不想在包选项上搞来搞去地切换到 latex
以生成 DVI 文件。
相反,您可以将pdf文件转换为文本。这适用于使用 Curve 包制作的简历/履历表:
pdftotext -layout MyResume.pdf
请注意 -layout
, 它会生成一个人眼可读的结果,类似于原始PDF的结构,但是会在破坏行以实现这一点。去掉-layout,将生成更适合进一步处理且不会破坏行的结果。
-layout
。 - darthncls
文件。我正在使用类文件来处理重复格式化任务,以及enumitem类。谢谢! - chuckg${BASENAME}
中,您需要执行以下3个步骤:
htlatex ${BASENAME}.tex
iconv -f iso-8859-1 -t utf-8 ${BASENAME}.html > ${BASENAME}-utf8.html
html2markdown ${BASENAME}-utf8.html > ${BASENAME}.txt
tex4ht
和python-html2text
。$ latex file.tex
$ catdvi -e 1 -U file.dvi | sed -re "s/\[U\+2022\]/*/g" | sed -re "s/([^^[:space:]])\s+/\1 /g" > file.txt