1. tf.feature_column.numeric_column
- 단순하게 수치형으로 바꿔준다.
예를 들어, housing 데이터에서 tf.feature_column.numeric_column('logitude')
2. tf.feature_column.bucketized_column
- 수치형 데이터를 버킷화(구간 분할) 시켜준다.
예를 들어, tf.feature_column.bucketized_column("col", boundaries = [0., 1., 2.]) 으로 선언하면 데이터의 각 구간을
(-inf ~ 0), [0~1), [1~2), [2~inf)로 나누어준다.
3. tf.feature_column.categorical_column_with_vocabulary_list("col", list)
- 각 값을 label화 시켜줍니다.
예를 들어, ['man', 'woman'] -> [0, 1]로 ID를 붙여줍니다.
보통 one-hot encoding을 하려고할 때 쓰이기 때문에 tf.feature_column.indicator_column과 같이 쓰입니다.
예를 들어, [0, 1]로 label화 되어있는 것을 [[1, 0], [0, 1]]로 바꾸어줍니다.
4. tf.feature_column.crossed_column([col_a, col_b,...], hash_bucket_size)
- pandas에서 groupby를 통한 feature 생성이라고 생각하면 쉽습니다. 이 함수는 범주형 특성에 대해 특성교차를 제공합니다.
hash_bucket_size는 특성교차시에 얼마나 많은 버킷을 생성할지 입니다.
5. tf.feature_column_embedding_column(col, dimension)
- 범주형 또는 카테고리형 데이터에 모두 사용할 수 있습니다. 함수 그대로 임베딩 벡터를 제공합니다.
'# Machine Learning > TensorFlow Function' 카테고리의 다른 글
tf.data.dataset.window 예시 (0) | 2020.04.05 |
---|---|
tensorflow Loss 함수에 존재하는 from_logits란 (3) | 2020.03.06 |
tf.image.non_max_suppression (0) | 2019.04.16 |
tf.boolean_mask (0) | 2019.04.15 |
tf.nn.embedding_lookup 예시 (0) | 2019.04.13 |