如何使用Haskell的xml-conduit解析GPX文件？

Question

如何使用Haskell的xml-conduit解析GPX文件？

3

我想使用 xml-conduit 来解析 GPX 文件。目前，我已经得到了以下内容：

{-# LANGUAGE OverloadedStrings #-}

import Control.Applicative
import Data.Text           as T
import Text.XML
import Text.XML.Cursor

data Trkpt = Trkpt {
  trkptLat :: Text,
  trkptLon :: Text,
  trkptEle :: Text,
  trkptTime :: Text
  } deriving (Show)

trkptsFromFile path =
  gpxTrkpts . fromDocument <$> Text.XML.readFile def path

gpxTrkpts =
  child >=> element "{http://www.topografix.com/GPX/1/0}trk" >=>
  child >=> element "{http://www.topografix.com/GPX/1/0}trkseg" >=>
  child >=> element "{http://www.topografix.com/GPX/1/0}trkpt" >=>
  child >=> \e -> do
    let ele  = T.concat $ element "{http://www.topografix.com/GPX/1/0}ele" e >>= descendant >>= content
    let time = T.concat $ element "{http://www.topografix.com/GPX/1/0}time" e >>= descendant >>= content
    let lat  = T.concat $ attribute "lat" e
    let lon  = T.concat $ attribute "lon" e
    return $ Trkpt lat lon ele time

这里有一个样本GPX文件：链接。

我在解析文本时得到了一些奇怪的结果，大部分内容都是空的，有一些零散的实际值，虽然原始的GPX文件数据都是有效的。当有实际值时，它只会在记录的其中一个字段中出现。

我相当确信我没有正确使用xml-conduit API，我做错了什么？

- user1002430

2个回答

2

@duplode已经指出了问题。以下是更多的评论。

使用gpx-conduit包如何？
这里有一些可以帮助调试解析问题的代码：

代码：

{-# LANGUAGE OverloadedStrings #-}
module Lib2 where

import qualified Data.Text           as T
import Data.Text (Text)
import Text.XML
import Text.XML.Cursor
import qualified Filesystem.Path.CurrentOS as Path
import Control.Monad

showNode (NodeElement e)     = "NodeEement " ++ T.unpack (nameLocalName $ elementName e)
showNode (NodeInstruction _) = "NodeInstruction ..."
showNode (NodeContent t)     = "NodeContent " ++ show t
showNode (NodeComment _)     = "NodeComment"

testParser parser =  do
  content <- Text.XML.readFile def (Path.decodeString "sample.xml")
  let nodes = map node $ parser (fromDocument content)
  forM_ nodes $ \n -> putStrLn (showNode n)

在ghci中使用它的方法如下：

ghci> :set -XOverloadedStrings
ghci> :l Lib2
Lib2> testParser child
NodeContent "\n  "
NodeEement metadata
NodeContent "\n  "
NodeEement trk
NodeContent "\n  "
NodeEement extensions
NodeContent "\n"

Lib2> testParser $ child >=> element "trk"
Lib2> testParser $ child >=> laxElement "trk"
NodeEement trk

Lib2> testParser $ child >=> laxElement "trk" >=> child >=> laxElement "trkseg"
NodeElement trkseg
Lib2> testParser $ child >=> laxElement "trk" >=> child >=> laxElement "trkseg" >=> child >=> laxElement "trkpt"
NodeEement trkpt
NodeEement trkpt
NodeEement trkpt
NodeEement trkpt
Lib2>

- ErikR

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- duplode · Accepted Answer

有两个问题。首先，命名空间中有一个拼写错误; 它应该是http://www.topografix.com/GPX/1/1。其次，你的最终Kleisli箭头(\e -> do -- etc.)作用于元素的子元素，而不是本身。这里是一个，应该可以满足你的要求:

gpxTrkpts =
  child >=> element "{http://www.topografix.com/GPX/1/1}trk" >=>
  child >=> element "{http://www.topografix.com/GPX/1/1}trkseg" >=>
  child >=> element "{http://www.topografix.com/GPX/1/1}trkpt" >=>
  \e -> do
    let cs = child e
        ele  = T.concat $ cs >>= element "{http://www.topografix.com/GPX/1/1}ele" >>= descendant >>= content
        time = T.concat $ cs >>= element "{http://www.topografix.com/GPX/1/1}time" >>= descendant >>= content
        lat  = T.concat $ attribute "lat" e
        lon  = T.concat $ attribute "lon" e
    return $ Trkpt lat lon ele time