简单的libxml2 HTML解析示例,使用Objective-c,Xcode和HTMLparser.h

9
请问有人能给我展示一个使用libxml解析一些HTML的简单例子吗?
#import <libxml2/libxml/HTMLparser.h>

NSString *html = @"<ul>"
    "<li><input type=\"image\" name=\"input1\" value=\"string1value\" /></li>"
    "<li><input type=\"image\" name=\"input2\" value=\"string2value\" /></li>"
  "</ul>"
  "<span class=\"spantext\"><b>Hello World 1</b></span>"
  "<span class=\"spantext\"><b>Hello World 2</b></span>";

1)假设我想解析名称为input2的输入框的值。

应该输出"string2value"。

2)假设我想解析每个class为spantext的span标签的内部内容。

应该输出:"Hello World 1"和"Hello World 2"。


libxml用于XML解析,而为此您需要查看TouchXML。 - Ayaz Alavi
尽管我正在使用HTMLparser.h,但我会看一下TouchXML,谢谢。 - StuR
2
@Ayaz:libxml2支持HTML4解析。从TouchXML的稀疏文档来看,它似乎不支持,因此在这种情况下不合适。 - JeremyP
touchXML在其CXMLDocument.h文件中包含CXMLDocumentTidyHTML属性,由此推断可以使用touchXML解决此问题,您还可以看到受touchXML启发的KissXML。对于纯HTML解析器,我只找到了一个链接http://touchtank.wordpress.com/element-parser/..看看它是否符合您的需求。 - Ayaz Alavi
http://github.com/zootreeves/Objective-C-HMTL-Parser 做到了我想要的,非常感谢你的帮助。 - StuR
2个回答

19

我使用了Ben Reeves的HTML解析器来实现我想要的功能:

NSError *error = nil;
NSString *html = 
    @"<ul>"
        "<li><input type='image' name='input1' value='string1value' /></li>"
        "<li><input type='image' name='input2' value='string2value' /></li>"
    "</ul>"
    "<span class='spantext'><b>Hello World 1</b></span>"
    "<span class='spantext'><b>Hello World 2</b></span>";
HTMLParser *parser = [[HTMLParser alloc] initWithString:html error:&error];

if (error) {
    NSLog(@"Error: %@", error);
    return;
}

HTMLNode *bodyNode = [parser body];

NSArray *inputNodes = [bodyNode findChildTags:@"input"];

for (HTMLNode *inputNode in inputNodes) {
    if ([[inputNode getAttributeNamed:@"name"] isEqualToString:@"input2"]) {
        NSLog(@"%@", [inputNode getAttributeNamed:@"value"]); //Answer to first question
    }
}

NSArray *spanNodes = [bodyNode findChildTags:@"span"];

for (HTMLNode *spanNode in spanNodes) {
    if ([[spanNode getAttributeNamed:@"class"] isEqualToString:@"spantext"]) {
        NSLog(@"%@", [spanNode allContents]); //Answer to second question
    }
}

[parser release];

我知道这很老旧,但我非常确定他想要“allContents”而不是“rawContents”。 - clarky
@StuR的库是否也适用于iPhone开发io6? - Dejell
@Odelya 我认为是这样的,虽然我还没有测试过。你可能需要设置一个无ARC编译器标志。 - StuR

1
正如Vladimir所说,对于第二点来说,将rawContents替换为Contents非常重要。rawContents会打印完整的原始文本节点,即:
<span class='spantext'><b>Hello World 1</b></span>

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接