自然语言处理--客户数据平台（私有化）-火山引擎

文档中心

导航

自然语言处理

最近更新时间：2024.07.11 17:32:50首次发布时间：2023.03.17 14:39:45

1.功能概述

自然语言处理，是指可视化建模支持以多种自然语言处理方式，对数据进行加工处理，以便更直观、便捷地进行后续的可视化查询与分析展现。本文将为您介绍自然语言处理算子的功能。

2.算子介绍

2.1 生成句向量

根据词向量生成文本的句向量，可选择预训练好的词向量，也可以根据自己训练词向量生成句向量。

说明

字段设置 输入列：输入列(输入为 string 类型的 array 数组，例如分词算子后的结果作为输入，右侧端口为可选项，输入为用户自己训练的词向量)。
参数设置 输出列：输出列

分词算子，支持对中文文档进行分词。与英文不同，中文是以字为单位，句子中所有的字连起来才能描述一个意思。把中文的汉字序列切分成有意义的词，就是中文分词。
例如：我是一个学生，分词的结果是：我、是、一个、学生。(输入为 string 类型的文本)

说明

从一段文本中移除指定停用词。为节省存储空间和提高搜索效率，在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词，这些字或词即被称为 Stop Words(停用词)。(需要输入为 string 类型的 array 数组，通常接在分词算子后)

说明