这是一个非常普遍的问题,但据我所知,如果您想使用一些机器学习方法,最好先将数据转换为整洁数据格式。
从@RootTwo在评论中引用的文档中可以看出,您实际上正在处理两个数据集:一个示例平面表和一个产品平面表。(如果需要,您可以稍后将两个表连接在一起得到一个表。)
让我们首先创建一些解析器,将不同的行解码为相对信息丰富的数据结构:
对于具有示例的行,我们可以使用:
def process_example(example_line):
feature_names = ['ex_id', 'hash', 'clicked', 'propensity', 'slots', 'candidates'] + \
['display_feature_' + str(i) for i in range(1, 11)]
are_numbers = [1, 3, 4, 5, 6]
parts = example_line.split(' ')
parts[1] = parts[1].replace(':', '')
for i in are_numbers:
parts[i] = float(parts[i])
if parts[i].is_integer():
parts[i] = int(parts[i])
featues = [int(ft.split(':')[1]) for ft in parts[7:]]
return dict(zip(feature_names, parts[1:7] + featues))
这种方法有些取巧,但可以完成任务:解析特征并在可能的情况下转换为数字。输出看起来像这样:
{'ex_id': 20184824,
'hash': '57548fae76b0aa2f2e0d96c40ac6ae3057548faee00912d106fc65fc1fa92d68',
'clicked': 0,
'propensity': 1.416489e-07,
'slots': 6,
'candidates': 30,
'display_feature_1': 728,
'display_feature_2': 90,
'display_feature_3': 1,
'display_feature_4': 10,
'display_feature_5': 16,
'display_feature_6': 1,
'display_feature_7': 26,
'display_feature_8': 11,
'display_feature_9': 597,
'display_feature_10': 7}
下面是产品示例。正如您所提到的,问题在于多个值的重复出现。我认为按照它们的频率聚合唯一的特征-值对是明智的选择。信息不会丢失,但它有助于我们编码整洁的样本。这应该解决了您的第二个问题。
import toolz
def process_product(product_line):
parts = product_line.split(' ')
meta = {'label': int(parts[0]),
'ex_id': int(parts[1].split(':')[1])}
features = [('product_feature_' + str(i), int(v))
for i, v in map(lambda x: x.split(':'), parts[2:])]
products = [dict(zip(['feature', 'value', 'frequency'], (*k, v)))
for k, v in toolz.countby(toolz.identity, features).items()]
return [dict(p, **meta) for p in products]
基本上,它提取每个示例的标签和特征(第40行的示例)。
[{'feature': 'product_feature_11',
'value': 0,
'frequency': 1,
'label': 0,
'ex_id': 19168103},
{'feature': 'product_feature_12',
'value': 1,
'frequency': 1,
'label': 0,
'ex_id': 19168103},
{'feature': 'product_feature_13',
'value': 0,
'frequency': 1,
'label': 0,
'ex_id': 19168103},
{'feature': 'product_feature_14',
'value': 2,
'frequency': 1,
'label': 0,
'ex_id': 19168103},
{'feature': 'product_feature_15',
'value': 0,
'frequency': 1,
'label': 0,
'ex_id': 19168103},
{'feature': 'product_feature_17',
'value': 2,
'frequency': 2,
'label': 0,
'ex_id': 19168103},
{'feature': 'product_feature_21',
'value': 55,
'frequency': 2,
'label': 0,
'ex_id': 19168103},
{'feature': 'product_feature_22',
'value': 14,
'frequency': 1,
'label': 0,
'ex_id': 19168103},
{'feature': 'product_feature_22',
'value': 54,
'frequency': 1,
'label': 0,
'ex_id': 19168103},
{'feature': 'product_feature_24',
'value': 3039,
'frequency': 1,
'label': 0,
'ex_id': 19168103},
{'feature': 'product_feature_25',
'value': 721,
'frequency': 1,
'label': 0,
'ex_id': 19168103},
{'feature': 'product_feature_33',
'value': 386,
'frequency': 2,
'label': 0,
'ex_id': 19168103},
{'feature': 'product_feature_35',
'value': 963,
'frequency': 1,
'label': 0,
'ex_id': 19168103}]
因此,当您逐行处理流时,可以决定是映射示例还是产品:
def process_stream(stream):
for content in stream:
if 'example' in content:
yield process_example(content)
else:
yield process_product(content)
我决定在这里做一个生成器,因为如果你决定不使用pandas,它将有助于以函数式的方式处理数据。否则,列表推导将是您的好朋友。
现在进入有趣的部分:我们逐行从给定的(示例)url读取行,并将它们分配到它们相应的数据集中(例如或产品)。我将在这里使用reduce,因为它很有趣:-)。我不会详细介绍map/reduce实际上是做什么的(这取决于您)。您始终可以使用简单的for循环。
import urllib.request
import toolz
lines_stream = (line.decode("utf-8").strip()
for line in urllib.request.urlopen('http://www.cs.cornell.edu/~adith/Criteo/sample.txt'))
def dataset_reducer(datasets, content):
which_one = 0 if 'hash' in content else 1
datasets[which_one].append(content)
return datasets
examples_dataset, product_dataset = toolz.reduce(dataset_reducer, process_stream(lines), [[], []])
从这里开始,您可以将数据集转换为一个整洁的数据框,以便应用机器学习。注意NaN/缺失值、分布等。您可以使用merge将这两个数据集连接起来,得到一个大的平面样本X特征表。然后,您就可以使用来自scikit-learn等的不同方法了。
import pandas
examples_dataset = pandas.DataFrame(examples_dataset)
product_dataset = pandas.concat(pandas.DataFrame(p) for p in product_dataset)
示例数据集
candidates clicked ... propensity slots
0 30 0 ... 1.416489e-07 6
1 23 0 ... 5.344958e-01 3
2 23 1 ... 1.774762e-04 3
3 28 0 ... 1.158855e-04 6
产品数据集 (product_dataset.sample(10)
)
ex_id feature frequency label value
6 10244535 product_feature_21 1 0 10
9 37375474 product_feature_25 1 0 4
6 44432959 product_feature_25 1 0 263
15 62131356 product_feature_35 1 0 14
8 50383824 product_feature_24 1 0 228
8 63624159 product_feature_20 1 0 30
3 99375433 product_feature_14 1 0 0
9 3389658 product_feature_25 1 0 43
20 59461725 product_feature_31 8 0 4
11 17247719 product_feature_21 3 0 5
请注意 product_dataset
。您可以将特征行转换为列 (参见 重塑文档)。