1. tf.feature_column.numeric_column

- 단순하게 수치형으로 바꿔준다. 

예를 들어, housing 데이터에서 tf.feature_column.numeric_column('logitude')

2. tf.feature_column.bucketized_column

- 수치형 데이터를 버킷화(구간 분할) 시켜준다. 

예를 들어, tf.feature_column.bucketized_column("col", boundaries = [0., 1., 2.]) 으로 선언하면 데이터의 각 구간을 

(-inf ~ 0), [0~1), [1~2), [2~inf)로 나누어준다.

3. tf.feature_column.categorical_column_with_vocabulary_list("col", list)

- 각 값을 label화 시켜줍니다.

예를 들어, ['man', 'woman'] -> [0, 1]로 ID를 붙여줍니다.

보통 one-hot encoding을 하려고할 때 쓰이기 때문에 tf.feature_column.indicator_column과 같이 쓰입니다.

예를 들어, [0, 1]로 label화 되어있는 것을 [[1, 0], [0, 1]]로 바꾸어줍니다.

4. tf.feature_column.crossed_column([col_a, col_b,...], hash_bucket_size)

- pandas에서 groupby를 통한 feature 생성이라고 생각하면 쉽습니다. 이 함수는 범주형 특성에 대해 특성교차를 제공합니다.

hash_bucket_size는 특성교차시에 얼마나 많은 버킷을 생성할지 입니다. 

5. tf.feature_column_embedding_column(col, dimension)

- 범주형 또는 카테고리형 데이터에 모두 사용할 수 있습니다. 함수 그대로 임베딩 벡터를 제공합니다. 

'# Machine Learning > TensorFlow Function' 카테고리의 다른 글

tf.data.dataset.window 예시  (0) 2020.04.05
tensorflow Loss 함수에 존재하는 from_logits란  (3) 2020.03.06
tf.image.non_max_suppression  (0) 2019.04.16
tf.boolean_mask  (0) 2019.04.15
tf.nn.embedding_lookup 예시  (0) 2019.04.13