假设我有一列名为
df.Text
的文本(超过1个句子),我想使用 polyglot Detector
来检测语言并将值存储在新列 df['Text-Lang']
中,如何确保我还捕获其他细节,例如code
和 confidence
?testEng ="This is English"
lang = Detector(testEng)
print(lang.language)
返回值
名称:英语 代码:en 置信度:94.0 读取字节:1920
但是
df['Text-Lang','Text-LangConfidence']= df.Text.apply(Detector)
以...结尾
属性错误: 'float'对象没有属性'encode',且检测器不能可靠地检测语言。
我是不是使用检测器函数的方式不正确或者存储输出的方式不正确或者其他什么问题?
from polyglot.detect import Detector testEng ="This is English" lang = Detector(testEng) print(lang)
将会产生以下输出:Prediction is reliable: True Language 1: name: English code: en confidence: 94.0 read bytes: 1920 Language 2: name: un code: un confidence: 0.0 read bytes: 0 Language 3: name: un code: un confidence: 0.0 read bytes: 0 - mobcdi