自然语言处理,是指可视化建模支持以多种自然语言处理方式,对数据进行加工处理,以便更直观、便捷地进行后续的可视化查询与分析展现。本文将为您介绍自然语言处理算子的功能。
根据词向量生成文本的句向量,可选择预训练好的词向量,也可以根据自己训练词向量生成句向量。
说明
分词算子,支持对中文文档进行分词。与英文不同,中文是以字为单位,句子中所有的字连起来才能描述一个意思。把中文的汉字序列切分成有意义的词,就是中文分词。
例如:我是一个学生,分词的结果是:我、是、一个、学生。(输入为 string 类型的文本)
说明
字段设置 输入列:输入列
参数设置 输出列名:输出列的名字
从一段文本中移除指定停用词。为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为 Stop Words(停用词)。(需要输入为 string 类型的 array 数组,通常接在分词算子后)
说明