You need to enable JavaScript to run this app.
导航
自然语言处理
最近更新时间:2024.07.11 17:32:50首次发布时间:2023.03.17 14:39:45

1.功能概述

自然语言处理,是指可视化建模支持以多种自然语言处理方式,对数据进行加工处理,以便更直观、便捷地进行后续的可视化查询与分析展现。本文将为您介绍自然语言处理算子的功能。
图片

2.算子介绍

2.1 生成句向量

根据词向量生成文本的句向量,可选择预训练好的词向量,也可以根据自己训练词向量生成句向量。

说明

  • 字段设置 输入列:输入列(输入为 string 类型的 array 数组,例如分词算子后的结果作为输入,右侧端口为可选项,输入为用户自己训练的词向量)。
  • 参数设置 输出列:输出列

2.2 分词

分词算子,支持对中文文档进行分词。与英文不同,中文是以字为单位,句子中所有的字连起来才能描述一个意思。把中文的汉字序列切分成有意义的词,就是中文分词。
例如:我是一个学生,分词的结果是:我、是、一个、学生。(输入为 string 类型的文本)

说明

  • 字段设置 输入列:输入列
  • 参数设置 输出列名:输出列的名字

2.3 移除停用词

从一段文本中移除指定停用词。为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为 Stop Words(停用词)。(需要输入为 string 类型的 array 数组,通常接在分词算子后)

说明

  • 字段设置 输入词列:输入词列
  • 参数设置 默认停用词表语言:默认停用词表语言,系统提供三种语言的停用词表:中文、英语和法语。