一直以来,特征开发都是个过程复杂,门槛较高的过程。从下面流程图不难看出,数据处理、原始特征、特征、样本每一步都需要大量的配置和调试工作。但在大多数情况下,每个行业特征开发所依赖的数据和产出的特征及样本都是类似的。由于这种相似性的存在,我们可以将能够复用的部分预置成模板,您在使用时就可以基于模板快速地完成特征的开发。
目前,我们在特征工程的预置行业模板中预置了数据中间表、数据处理任务、原始特征、特征和样本。模板可以在特征开发的任意阶段一键启用,启用后会自动生成模板包含的所有内容,创建好特征及一个批式样本。这样就大大降低了特征工程的上手门槛,缩短了开发时间。而当模板所包含的内容无法满足您的特征及样本的需求时,您既可以基于模板预置的数据、原始特征进行自定义扩展,也可以一直不启用模板,完全自助式的进行特征开发。
下面我们按不同模块为大家介绍模板中包含的内容。
启用模板后会创建如下数据表及相关的数据处理任务,它们的创建人是“系统”。您可以查看这些表和任务的配置信息,预览表内数据,也支持进行编辑和归档操作。
为区分基于模板创建的内容和您自己创建的内容,模板创建内容的名称会加上“tpl_”的前缀。同时您创建内容时,名称也无法以“tpl_”开头。模板创建的原始特征、特征和样本也有类似的设定。
类型 | 表名 | 关联任务名 | 补充说明 |
---|---|---|---|
表格类 | tpl_hive_base_user_table | tpl_hive_base_user_task | 数据处理任务对天级用户表进行预处理并存储于关联的批式用户表,可作为离线数据源 |
tpl_hive_base_item_table | tpl_hive_base_item_task | 数据处理任务对天级用户基础信息进行预处理并存储于关联的批式物品表,可作为离线数据源 | |
tpl_hive_base_bhv_table | tpl_hive_base_bhv_task | 对天级行为信息进行预处理并存储于对应的批式行为表,可作为离线数据源 | |
消息队列类 | tpl_kv_base_user_table(同 kv 导入类表) | tpl_mq_base_user_task | 对实时用户基础信息进行预处理 |
tpl_kv_base_item_table(同 kv 导入类表) | tpl_mq_base_item_task | 对实时父物品基础信息进行预处理 | |
kv 导入类 | tpl_kv_base_user_table | tpl_kv_base_user_task | 将在线用户基础信息预处理后保存于在线用户基数数据表,可作为在线数据源 |
tpl_kv_base_item_table | tpl_kv_base_item_task | 将在线物品基础信息预处理后保存于在线物品基数数据表,可作为在线数据源 |
注意:
原始特征保存了创建特征时所需的元信息,便于基于相同的数据源或类别批量创建特征,提高特征的创建效率。
模板预置了3个行业的常见原始特征。所有模板生成的原始特征会自动添加“tpl_”前缀,该前缀为保留字,自定义创建特征时不可使用。
不同行业包含的原始特征按类型分布见下表。
行业 | 用户 | 物品 | 上下文 | 总计 |
---|---|---|---|---|
电商 | 约 30 个 | 约 50 个 | 约 10 个 | 约 90 个 |
长视频 | 约 20 个 | 约 60 个 | 约 20 个 | 约 100 个 |
内容社区 | 约 20 个 | 约 50 个 | 约 20 个 | 约 90 个 |
特征基于原始特征,通过配置抽取方法得到可用于样本及线上预估所需的特征数据。
模板预置了3个行业的常见特征。所有模板生成的特征会自动添加“tpl_fc_”前缀,该前缀为保留字,自定义创建特征时不可使用。
如有更多特征期望预置到模版内,可以反馈给您的客户成功经理或算法、交付同学。
不同行业包含的全部特征类型概览见下表。实际在启用模板时生成的特征取决于在数据管理中进行数据表定义时勾选了的字段(数据表定义可参考:数据管理 -> 数据表定义)。另外,若您传入了数据表定义模块中未包含在 schema 的字段时,目前由于我们无法识别你自定义的这些字段的业务含义,无法帮您自动添加到模板生成的内容中。若您需要使用这部分字段,目前您需要执行创建数据表、数据处理任务、原始特征及特征,可能也需要重新创建样本。
行业 | 电商 | 长视频 | 内容社区 |
---|---|---|---|
用户基础类 | 包含 | 包含 | 包含 |
用户天级窗口聚合类 | 不包含 | 不包含 | 不包含 |
用户天级内窗口聚合类 | 不包含 | 不包含 | 不包含 |
物品基础类 | 包含 | 包含 | 包含 |
物品天级窗口聚合类 | 不包含 | 不包含 | 不包含 |
物品天级内窗口聚合类 | 不包含 | 不包含 | 不包含 |
父物品基础类 | 不包含 | 不包含 | 不包含 |
父物品天级窗口聚合类 | 不包含 | 不包含 | 不包含 |
父物品天级内窗口聚合类 | 不包含 | 不包含 | 不包含 |
context类 | 包含 | 包含 | 包含 |
match类 | 不包含 | 不包含 | 不包含 |
combine 类 | 不包含 | 不包含 | 不包含 |
总计 | 约 90 个 | 约 100 个 | 约 90 个 |
下面是每个行业按特征类型分组后的特征信息概览。
特征类别 | 数量 | 概述 |
---|---|---|
用户类特征 | 约 30 个 | 包含用户基础信息相关的特征,如:id、年龄、性别、设备id、会员等级、国家、省份、城市、城区、标签等。例如:tpl_fc_user_id, tpl_fc_user_age, tpl_fc_user_gender, tpl_fc_user_device_id, tpl_fc_user_membership_level, tpl_fc_user_subscriber_type, ... |
物品类特征 | 约 50 个 | 包含商品基础信息相关的特征,如:id、标题、作者、类别、语种、价格、更新时间等。例如:tpl_fc_goods_id, tpl_fc_goods_spu_id, tpl_fc_goods_status, tpl_fc_goods_cate_1, tpl_fc_goods_brand, tpl_fc_goods_title, tpl_fc_goods_current_price, tpl_fc_price_reduction, tpl_fc_goods_comment_cnt, tpl_fc_goods_share_cnt, tpl_fc_goods_praise_cnt_1000, ... |
上下文类基础特征 | 约 10 个 | 包含行为发生时的相关上下文信息,如:页面、发生时间等。例如:tpl_fc_page, tpl_fc_bhv_time_hourofday, tpl_fc_bhv_time_periodofday, tpl_fc_bhv_time_dayofweek, ... |
特征类别 | 数量 | 概述 |
---|---|---|
用户类特征 | 约 20 个 | 包含用户基础信息相关的特征,如:id、年龄、性别、设备id、会员等级、国家、省份、城市、城区、标签、注册时间等。例如:tpl_fc_user_id, tpl_fc_user_age, tpl_fc_user_gender, tpl_fc_user_device_id, tpl_fc_user_membership_level, tpl_fc_user_tags_list, tpl_fc_user_subscriber_type, tpl_fc_user_last_login_time_month, ... |
物品类特征 | 约 50 个 | 包含文章基础信息相关的特征,如:id、标题、作者、类别、语种、价格、更新时间等,以及点赞、评论、分享、收藏等行为类统计特征。例如:tpl_fc_doc_id, tpl_fc_doc_title_terms, tpl_fc_doc_type, tpl_fc_doc_cate1, tpl_fc_doc_cate2, tpl_fc_doc_cate3, tpl_fc_doc_author_id, tpl_fc_doc_tags, tpl_fc_doc_share_cnt_10, tpl_fc_doc_collect_cnt_10, tpl_fc_doc_praise_cnt_10, ... |
上下文类基础特征 | 约 20 个 | 包含行为发生时的相关上下文信息,如:页面、平台、操作系统、客户端版本、所属网络、设备型号等。例如:tpl_fc_page, tpl_fc_platform, tpl_fc_os, tpl_fc_os_version, tpl_fc_client_version, tpl_fc_network, tpl_fc_device_model, tpl_fc_country, tpl_fc_province, tpl_fc_city, tpl_fc_district, tpl_fc_area, ... |
特征类别 | 数量 | 概述 |
---|---|---|
用户类特征 | 约 20 个 | 包含用户基础信息相关的特征,如:id、年龄、性别、设备id、会员等级、国家、省份、城市、城区、标签、注册时间等。例如:tpl_fc_user_id, tpl_fc_user_age, tpl_fc_user_gender, tpl_fc_user_device_id, tpl_fc_user_membership_level, tpl_fc_user_tags_list, tpl_fc_user_subscriber_type, tpl_fc_user_last_login_time_month, ... |
物品类特征 | 约 60 个 | 包含视频基础信息相关的特征,如:id、标题、作者、类别、语种、价格、更新时间等。例如:tpl_fc_item_id, tpl_fc_item_name_terms, tpl_fc_item_rating, tpl_fc_item_category_list1, tpl_fc_item_author_list, tpl_fc_item_tags_list, ... |
上下文类基础特征 | 约 20 个 | 包含行为发生时的相关上下文信息,如:页面、继续播放、设备id等。例如:page,device_id, tpl_fc_bhv_play_type, tpl_fc_bhv_continue_play, ... |
模板创建的样本信息如下:
样本默认不开启追新,如需手动开启。
Q: 我可以把自己创建的特征保存为模板么?
A: 暂不支持。您可将需求反馈给您的客户成功经理,我们会尽快评估并反馈。
Q: 模板内容更新后,已经启用模板的项目会应用更新的内容么?
A: 不会,模板内容创建之后可以理解为是用户自定义内容,用户在使用上不受限制。平台不会再将这些内容作为模板并维护。如有新增特征,您可按需进行栏位关联或添加到样本当中。
Q: 启用模板后是否支持停用?
A: 支持停用。如果您不再使用模板创建的内容,可以归档模板创建的内容。
Q: 我已经在没有启用模板时创建了一些内容,这个时候启用模板会影响我已经创建的内容么?
A: 不会影响。启用模板时创建的内容名称都会包含特定的前缀,这些前缀您创建内容时无法使用。所以不会影响您已经创建的内容。
Q:行业模板使用时有什么注意事项?
A:开启模板时会自动创建实时特征处理任务,但是不会自动开启追新,需要您在接入相关实时数据之后,按需开启追新。模板创建的所有内容生效后与用户自定义内容在产品定义和使用上没有差别。