tensorflow 特征工程:feature_column 及对应解析方法
特征工程方法
feature_column
简介
作为一个合格的TFboy, 不仅需要熟练使用低级API。
还需要会用estimator
这类高级API
高级API具有封装良好、自动保存checkpoint、自动保存模型、自动设置Adagrad优化的有点。
还可以直接使用feature_column
进行输入数据特征处理。
离散数据
离散数据处理方式有:
- one_hot
- categorical_column_with_hash_bucket 装桶
- crossed_column 交叉装桶
one_hot
feature_column.indicator_column
1 | color_data = {'color': [ "R", "B", 'G', 'A', 'A']} # 4行样本 |
输出
1 | [SparseTensorValue(indices=array([[0, 0], |
categorical_column_with_identity
有些数据比如ID,看起来是数字,其实是离散数据的。
1 | color_data = {'color': [1, 2, 3, 5,1]} |
输出,num_buckets指的是种类,default_value是默认值,如果超出了范围。
1 | SparseTensorValue(indices=array([[0, 0], |
categorical_column_with_hash_bucket
如果种类数目特别多,但是大多数都不怎么用,甚至大多数都不用的情况,建桶会比较方便。
映射规则可以通过
string_to_hash_bucket_fast
查看https://www.tensorflow.org/api_docs/python/tf/feature_column/categorical_column_with_hash_bucket
crossed_column
映射规则可以通过input_layer
查看
1 | def get_hash(num1, num2): |
连续数据
连续数据有:
直接用
tf.feature_column.numeric_column("age")
CDF分桶用
一般来说,边界通过:
1 | thresholds = [] |
确定
参考
tensorflow 特征工程:feature_column 及对应解析方法
未找到相关的 Issues 进行评论
请联系 @mmmwhy 初始化创建