使用 JGit 爬取 GitHub

3

我正在尝试使用JGit爬取GitHub的Wiki页面。
当我使用一个URL进行尝试时,它可以完美地工作。然后我尝试使用另一个随机URL,结果出现了错误。
请参见我的代码摘录:

import java.io.File;
import java.io.IOException;

import org.eclipse.jgit.api.Git;
import org.eclipse.jgit.api.errors.GitAPIException;

public class Main {
    // with this URL I get an error
    String url = "https://github.com/radiant/radiant.wiki.git";
    // this URL works
    // String url = "https://github.com/WardCunningham/Smallest-Federated-Wiki.wiki.git";

    public static void main(String[] args) {
        Main m = new Main();
        m.jgitTest();
        System.out.println("Done!");
    }

    public void jgitTest() {
        try {
            File localPath = File.createTempFile("TestGitRepository", "");
            localPath.delete();
            Git.cloneRepository().setURI(url).setDirectory(localPath).call();
        } catch (IOException | GitAPIException e) {
            System.err.println("excepton: " + e.getMessage());
            e.printStackTrace();
        }
    }
}

这是堆栈跟踪信息:
Exception in thread "main" org.eclipse.jgit.dircache.InvalidPathException: Invalid path (contains separator ':'): How-To:-Create-an-Extension.textile
    at org.eclipse.jgit.dircache.DirCacheCheckout.checkValidPathSegment(DirCacheCheckout.java:1243)
    at org.eclipse.jgit.dircache.DirCacheCheckout.checkValidPathSegment(DirCacheCheckout.java:1225)
    at org.eclipse.jgit.dircache.DirCacheCheckout.checkValidPath(DirCacheCheckout.java:1185)
    at org.eclipse.jgit.dircache.DirCacheCheckout.processEntry(DirCacheCheckout.java:311)
    at org.eclipse.jgit.dircache.DirCacheCheckout.prescanOneTree(DirCacheCheckout.java:290)
    at org.eclipse.jgit.dircache.DirCacheCheckout.doCheckout(DirCacheCheckout.java:408)
    at org.eclipse.jgit.dircache.DirCacheCheckout.checkout(DirCacheCheckout.java:393)
    at org.eclipse.jgit.api.CloneCommand.checkout(CloneCommand.java:236)
    at org.eclipse.jgit.api.CloneCommand.call(CloneCommand.java:127)
    at Main.jgitTest(Main.java:21)
    at Main.main(Main.java:13)

如果您访问无法正常运行的URL的维基页面(https://github.com/radiant/radiant/wiki),您将找到此页面: 如何创建扩展
该页面的标题是错误的原因:无效路径(包含分隔符“:”):How-To:-Create-an-Extension.textile
我猜需要转义所有输出。
2个回答

6

我猜你在使用Windows操作系统。在Windows上无法创建文件名中包含“:”的文件。JGit应该会处理这个问题,所以我认为这是一个JGit的bug。


是的,我正在使用Windows。有没有逃避文件名的机会? - Evgenij Reznik
Git本身也会在Windows上拒绝这样的路径,例如请参考http://superuser.com/questions/655318/git-error-invalid-path。 - centic

3

我也曾经遇到过纯 git 的同样问题,这篇回答 帮了我:

git config core.protectNTFS false

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接