Selenium - 如何获取元素及其子元素文本

10

简短版:我能用Java中的Selenium By.xpath获取聊天消息,但我想将表情符号放在适当的位置。

更长的版本: 你好, 我一直在处理这个有趣的问题,需要从Web浏览器解析聊天消息并使用Java和Selenium重新创建它。我没有问题解析消息的文本,但我还想解析它的子元素(笑脸图标)。除了手动源代码解析之外,是否有任何不错的方法可以实现这一点?

这是我能够访问的单个消息的代码:

<div class="chat_msg chat_msg_caller ">
    <div class="chat_msg_head">
        <span class="chat_msg_author">
            SomeAuthor
        </span>
        <span class="chat_msg_date">
           SomeDate
        </span>
    </div>
    <div class="chat_msg_body message_text">
        SomeMessageText
        <span class="sml-icon biggrin">
            <span>
                :D
            </span>
        </span>
        SomeOtherText
        <span class="sml-icon biggrin">
            <span>
                :D
            </span>
        </span>
    </div>
</div>

这是一个获取聊天消息文本的示例:

String msgTxt = we.findElement(By.xpath("//div[@id='messages_body']/div[" + (i + 1) + "]/div[@class='chat_msg_body message_text']")).getText();

我的结果:SomeMessageText SomeOtherText 我想要的结果是:SomeMessageText :D SomeOtherText :D

CSS 文件:

http://badoocdn.com/v2/-/-/css/base-ltr.268.css
http://badoocdn.com/v2/-/-/css/page.chat-ltr.22.css
http://badoocdn.com/v2/-/-/css/popup.messenger-ltr.230.css

结构:

<div id="messages_body">
   <div id="pager" class="pages"></div>
   <div class="chat_msg chat_msg_caller ">
       <div class="chat_msg_head">
          <span class="chat_msg_author"></span>
          <span class="chat_msg_date"></span>
       </div>
       <div class="chat_msg_body message_text"></div>
   </div>
   <div class="me chat_msg chat_msg_owner "></div>
   <div class="chat_msg chat_msg_caller "></div>
   <div class="me chat_msg chat_msg_owner "></div>
   <div class="chat_msg chat_msg_caller "></div>
   <div class="chat_msg chat_msg_caller "></div>
   <div class="chat_msg chat_msg_caller "></div>
   ...

从那里我只得到了“一些消息文本一些其他文本”。这就是问题所在。我想在它们之间获取表情符号。 - Lenymm
我会编辑问题 :) - Lenymm
2个回答

15

如果我理解你的意思正确,你只需要在父元素上执行getText()方法,例如:

如果我理解你的意思正确,你只需要在父元素上执行getText()方法,例如:

driver.findElement(By.cssSelector(".chat_msg_body message_text")).getText()

这应该返回:

一些消息文本 :D 另一些文本 :D

它可能会移除一些空格,您需要试一下。

编辑

考虑到您可能会遇到CSS问题,您可以尝试以下方法:

driver.findElement(By.cssSelector(".chat_msg_body message_text")).getAttribute("textContent")

即使CSS将所有内容移动到其他位置,仍应该获取textContent。


我已经编辑了我的问题以展示我如何获取消息文本。我使用类似的方法,只是使用By.xpath,并且它仅返回“SomeMessageText SomeOtherText”。 - Lenymm
这个Xpath非常可怕:'"//div[@id='messages_body']/div[" + (i + 1) + "]/div[@class='chat_msg_body message_text']"',为什么不直接使用类呢?无论如何,回到你的问题,你能提供CSS吗?我目前的猜测是你在CSS中隐藏了文本并用图像替换它,而Selenium正在计算这些span不可见,因此没有返回该文本。 - Ardesco
我已经添加了整个结构的示例,如果您能建议我如何改进我的xpath,我将不胜感激,因为我自己也不喜欢它 :) 我需要遍历所有包含chat_msg的div,并查找更具体的信息(所有者、日期、消息)。 - Lenymm
你关于那些表情符号是正确的。CSS指定了瓦片集中应该显示哪些部分。有没有办法处理消息的内部部分,以便我可以确定在哪里放置表情符号? - Lenymm
更新了答案,建议您尝试使用driver.findElement(By.cssSelector(".chat_msg_body message_text")).getAttribute("textContent")。 - Ardesco

0

我该如何做到这一点,
1. 我打开Selenium IDE,
2. 选择我想要获取的网站文本
3. 右键单击并使用可用命令
4. 假设我们使用验证文本。
5. 停止录制并将录制转换为webdriver。
你就得到了你的代码。它很简单,对我总是有效。
你可以试试

 (new WebDriverWait(driver, 60)).until(ExpectedConditions
                .textToBePresentInElement(By.id("Element ID"),
                        "Text to verify"));

即使这样可以运行,也不能解决在消息的两部分之间有一个笑脸的问题。 - Lenymm

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接