如何使用Genia语料库训练斯坦福解析器？

Question

如何使用Genia语料库训练斯坦福解析器？

javanlpstanford-nlp

93

我在创建Stanford Parser的新模型时遇到了一些问题。

我也下载了最新版本的Stanford：http://nlp.stanford.edu/software/lex-parser.shtml

这里提供Genia语料库的两种格式，XML和PTB（宾州树库）。

Stanford Parser可以使用ptd文件进行训练；因此，我下载了Genia语料库，因为我想处理生物医学文本：

~~http://categorizer.tmit.bme.hu/~illes/genia_ptb/~~ ^{(链接已失效)} (genia_ptb.tar.gz)

然后，我编写了一个简短的Main类来获取一个生物医学句子的依存关系表示：

    String treebankPath = "/stanford-parser-2012-05-22/genia_ptb/GENIA_treebank_v1/ptb";

    Treebank tr = op.tlpParams.diskTreebank();
    tr.loadPath(treebankPath);  
    LexicalizedParser lpc=LexicalizedParser.trainFromTreebank(tr,op);

我尝试了不同的方法，但总是得到相同的结果。

我在最后一行遇到了一个错误。这是我的输出：

Currently Fri Jun 01 15:02:57 CEST 2012
Options parameters:
useUnknownWordSignatures 2
smoothInUnknownsThreshold 100
smartMutation false
useUnicodeType false
unknownSuffixSize 1
unknownPrefixSize 1
flexiTag true
useSignatureForKnownSmoothing false
parserParams edu.stanford.nlp.parser.lexparser.EnglishTreebankParserParams
forceCNF false
doPCFG true
doDep false
freeDependencies false
directional true
genStop true
distance true
coarseDistance false
dcTags false
nPrune false
Train parameters: smooth=false PA=true GPA=false selSplit=true (400.0; deleting [VP^SQ, VP^VP, VP^SINV, VP^NP]) mUnary=1 mUnaryTags=false sPPT=false tagPA=true tagSelSplit=false (0.0) rightRec=true leftRec=false collinsPunc=false markov=true mOrd=2 hSelSplit=true (10) compactGrammar=3 postPA=false postGPA=false selPSplit=false (0.0) tagSelPSplit=false (0.0) postSplitWithBase=false fractionBeforeUnseenCounting=0.5 openClassTypesThreshold=50 preTransformer=null taggedFiles=null
Using EnglishTreebankParserParams splitIN=4 sPercent=true sNNP=0 sQuotes=false sSFP=false rbGPA=false j#=false jJJ=false jNounTags=false sPPJJ=false sTRJJ=false sJJCOMP=false sMoreLess=false unaryDT=true unaryRB=true unaryPRP=false reflPRP=false unaryIN=false sCC=1 sNT=false sRB=false sAux=2 vpSubCat=false mDTV=2 sVP=3 sVPNPAgr=false sSTag=0 mVP=false sNP%=0 sNPPRP=false dominatesV=1 dominatesI=false dominatesC=false mCC=0 sSGapped=4 numNP=false sPoss=1 baseNP=1 sNPNNP=0 sTMP=1 sNPADV=1 cTags=true rightPhrasal=false gpaRootVP=false splitSbar=0 mPPTOiIN=0
Binarizing trees...done. Time elapsed: 141 ms
Extracting PCFG...done. Time elapsed: 56 ms
Compiling grammar...done Time elapsed: 1 ms
Extracting Lexicon...Exception in thread "main" edu.stanford.nlp.util.ReflectionLoading$ReflectionLoadingException: edu.stanford.nlp.util.MetaClass$ClassCreationException: java.lang.ClassNotFoundException: edu.stanford.nlp.parser.lexparser.EnglishUnknownWordModelTrainer
    at edu.stanford.nlp.util.ReflectionLoading.loadByReflection(ReflectionLoading.java:39)
    at edu.stanford.nlp.parser.lexparser.BaseLexicon.initializeTraining(BaseLexicon.java:335)
    at edu.stanford.nlp.parser.lexparser.LexicalizedParser.getParserFromTreebank(LexicalizedParser.java:800)
    at edu.stanford.nlp.parser.lexparser.LexicalizedParser.trainFromTreebank(LexicalizedParser.java:226)
    at edu.stanford.nlp.parser.lexparser.LexicalizedParser.trainFromTreebank(LexicalizedParser.java:237)
    at ABravoDemo.main(ABravoDemo.java:35)
Caused by: edu.stanford.nlp.util.MetaClass$ClassCreationException: java.lang.ClassNotFoundException: edu.stanford.nlp.parser.lexparser.EnglishUnknownWordModelTrainer
    at edu.stanford.nlp.util.MetaClass.createFactory(MetaClass.java:353)
    at edu.stanford.nlp.util.MetaClass.createInstance(MetaClass.java:370)
    at edu.stanford.nlp.util.ReflectionLoading.loadByReflection(ReflectionLoading.java:37)
    ... 5 more
Caused by: java.lang.ClassNotFoundException: edu.stanford.nlp.parser.lexparser.EnglishUnknownWordModelTrainer
    at java.net.URLClassLoader$1.run(URLClassLoader.java:200)
    at java.security.AccessController.doPrivileged(Native Method)
    at java.net.URLClassLoader.findClass(URLClassLoader.java:188)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:303)
    at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:301)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:248)
    at java.lang.ClassLoader.loadClassInternal(ClassLoader.java:316)
    at java.lang.Class.forName0(Native Method)
    at java.lang.Class.forName(Class.java:169)
    at edu.stanford.nlp.util.MetaClass$ClassFactory.construct(MetaClass.java:119)
    at edu.stanford.nlp.util.MetaClass$ClassFactory.<init>(MetaClass.java:192)
    at edu.stanford.nlp.util.MetaClass$ClassFactory.<init>(MetaClass.java:53)
    at edu.stanford.nlp.util.MetaClass.createFactory(MetaClass.java:349)
    ... 7 more

如何使用这个语料库创建新模型？

- nathan

2

请查看以下链接：https://dev59.com/onA75IYBdhLWcg3wsrSD#3158157 - Khaled.K

可能是如何为斯坦福标注器创建自己的训练语料库？的重复问题。 - Andremoniy

5

真正的原因是“java.lang.ClassNotFoundException：edu.stanford.nlp.parser.lexparser.EnglishUnknownWordModelTrainer”。 http://nlp.stanford.edu/software/stanford-english-corenlp-2016-01-10-models.jar 中是否有该类？我现在无法下载900MB来检查。 - andrucz

1

尝试观看这个视频，它可能会对你有所帮助： https://www.youtube.com/watch?v=w4rWpvBjBRI - Gautam

3个回答

1

正如andrucz在评论中所述，你遇到问题的真正原因似乎是缺少一个类。

请检查你是否正确导入了库（并确保它包含edu.stanford.nlp.parser.lexparser中的类EnglishUnknownWordModelTra‌iner）。

（如果你正在使用Maven，请确认你正确添加了依赖项 - 通过快速搜索可以找到这个链接：Stanford Parser Maven Repo）

- Maximilian Schirm

0

请检查您是否正确导入了库，并确保它包含类{EnglishUnknownWordModelTra‌iner}，并且确保您下载的版本与Genia Corps正常工作。

- Divya Mishra

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Binny Peza · Accepted Answer

NLP库是否已正确安装？请检查日志以验证是否存在错误。大多数情况下，这个问题是由于stanford nltk库未正确安装导致的。

快速检查的方法是运行GUI来尝试解析器，如果成功运行，则库已正确安装，否则如果出现错误，则说明您的安装不好。

Stanford网站也提到了这一点，请看：

如果您是第一次解析，请从运行GUI开始尝试解析器。脚本包括Linux（lexparser-gui.sh）和Windows（lexparser-gui.bat）。请查看Javadoc lexparser包文档和LexicalizedParser类文档。（将Web浏览器指向包含的javadoc目录中的index.html文件，并导航到这些项目。）查看解析器FAQ以获取常见问题的答案。如果所有这些都无法帮助您，请参阅我们的电子邮件指南，以获取有关如何联系我们以获取进一步帮助的说明。