能力说明

能力名称:点点圈配知识

功能简介

点点圈,可以通过自定义网页内容,来提取网页中的数据。

配置参数

参数名称 参数类型 是否必填 默认值 参数说明
请输入下载链接 文本 直接部署搜索词时需要填写,格式为一行一个(换行操作:shift+回车),建议部署上限在100以内;当能力接收上层数据流时可不填
上游流入数据 文本 json 上游能力流过来的json流

输入简介

输入下载链接,多个以换行分隔(换行操作:shift+回车),建议部署上限在100以内

支持如下json格式举例:

{"downloadSleep":"1000","navigationTimeout":"4000","blockUrl":"google;.png;.gif","url":"https://www.baidu.com"}
  • 名词解释:
  • navigationTimeout:整个页面超时时间(毫秒)。
  • downloadSleep:下载完成后的等待时间(毫秒)。
  • blockUrl:拦截gif和png等无关紧要的链接,用包含策略进行匹配,支持用分号分割多个词,但不支持正则。。
  • 如果觉得现在某个站点较慢,可以尝试上述调整参数:blockUrl、navigationTimeout、downloadSleep值进行提速。
  • 获取页面装载的过程耗时可以通过,http://xxx.xxx.xxx.xxx:8083/downloadSortMap,如下图![输入图片说明](img/092153_6a8da080_1476286.png "微信图片_20191218092150.png")

输入数据样例

下载链接输入示例:

http://news.baidu.com

输出简介

json数据格式

参考指标

  • 数据质量:准确率:95%
  • 处理性能:600条/小时/机器 () CPU:4 内存:4G 线程数:4

使用说明

目录

1.开始
2.编辑视图
3.数据视图
4.添加列/点选
5.查找隐藏数据
6.列管理
7.提取链接
8.必填项目
9.默认值
10.正则表达式

开始

点击“点点圈”能力,在“设置”选项卡中点击“我要圈选网页内容”按钮。浏览器会弹出一个窗口(首次访问会等待一段时间,请静候之)。 输入图片说明

在弹出窗口中输入需要采集的URL,点击“开始按钮”。 输入图片说明

等待页面渲染完成之后进入到编辑视图。

编辑视图

“编辑视图”显示包含数据列的网页副本。 这是您用来训练提取器的视图。 显示的网页是从您第一次将URL加载到提取程序时开始,而不是更新版本。 输入图片说明

编辑视图的元素

1.URL :这是您当前正在训练提取器的页面的URL。
2.“数据”选项卡 :转到“数据”视图,该视图以表格的形式预览已经选择的数据。
3.撤消/重做 :在当前会话中撤消/重做以前的编辑动作。
4.刷新页面 :将新版本的网页加载到提取器中。如果页面发生更改,请使用此选项更新提取器。
5.从空表重新开始 :清除整个提取数据并从头开始。
6.添加列 :向提取器添加新列,然后可以使用“点击”进行训练。
7.标准/高级 :允许显示高级选项。
8.页面 :包含用于启用/禁用以下内容的选项:
  • Javascript :在页面上启用或禁用JavaScript,这可以使提取器运行得更快,但可能会丢失数据。
  • CSS :在训练期间启用或禁用CSS,可以显示页面上的隐藏元素。在实际运行期间不影响提取器。
9. :用于指定行,有三个可用选项。
  • 单行 :折叠相似数据并将数据输出到一行
  • 多行 :输出多行数据
  • Row XPath :使用XPath手动定义如何分隔行
10.使用其他URL进行培训 :用于向提取器的培训添加多个页面。 11.切换培训页面 :如果您有多个培训页面,则允许您在当前正在查看和培训的页面之间切换。
12.数据列 :显示您创建的列。您可以拖放以重新排列列,然后 单击/tab 数据列标题以重命名它们。
13.浮动数据列 :显示为所选列返回的数据。 14.清除数据 :清除当前列中的选定数据。
15.删除列 :从提取器中删除当前列。
16.列设置 :下拉菜单,其中包含用于管理该列中所选列和数据的选项。
17.从网站提取数据 :单击以显示“保存”窗口,并保存提取器。
18.选定的数据点 :当前列中选择的元素以绿色框显示。

数据视图

输入图片说明

数据视图的元素

1.URL :这是您当前正在训练提取器的页面的URL。
2.“编辑”选项卡 :转到“编辑”视图,该视图显示网页并允许您选择新数据。
3.数据列 :显示您创建的列以及它们当前提取的数据。 如果您的提取器设置为单行,它将为添加到培训的每个页面显示一行。 如果将提取器设置为多行,则只显示当前页面中的行。 您可以拖放以重新排列列,然后单击/选项卡到数据列标题中以重命名它们。
4.从网站提取数据 :单击以显示“保存”窗口,并保存提取器。

添加列/点选

使用点击界面训练您的提取器以选择所需的数据。 以下示例将演示如何在编辑器视图中导航以添加列并为这些列选择数据。

添加列

单击“添加列”按钮。 此列将显示浮动窗口,以帮助查看此列的数据点。

输入图片说明

选择数据

将鼠标悬停在所需数据上,直到指针变为绿色“+”图标,数据点被粉红色的轮廓框包围。 单击以选中数据点。 然后,您将看到数据点现在被绿色轮廓框包围为并作为新的一行出现在浮动窗口中。

输入图片说明

选择多个数据点

重复点击过程以为同一列添加多个数据点。

输入图片说明

取消选择数据

删除数据点

要取消选择数据点,请将鼠标悬停在数据上。 然后会出现一个红色的“ - ”图标,只需单击即可从列中取消选中此数据点。

清除数据

使用浮动窗口中的“清除数据”按钮取消选择该列的所有数据。

输入图片说明

撤销重做

选择“撤消”或“重做”按钮以撤消/重做最近的操作。

输入图片说明

查找隐藏数据

关闭CSS(样式)

将网页加载时,可能无法显示所有可用于提取的数据点,因为它们被其他元素隐藏。

以产品页面为例,例如https://product.suning.com/0000000000/10606649862.html,其中的“包装及参数”列在第二个选项卡上。

输入图片说明

当此页面最初加载到提取程序时,它不会显示页面上的“包装及参数”。

为了揭示这一点,您可以禁用CSS。如果尚未显示“高级”选项,请单击切换以显示它们,然后在禁用CSS之前选择“页面”选项。

输入图片说明

这将从页面中删除所有样式,允许您查看页面上显示的所有内容。显示所有文本后,您可以向下滚动并选择该产品列出的“包装及参数”。

输入图片说明

一旦选择了所需的数据点,如果您愿意的话,您就可以重新打开CSS,继续进行样式训练。

列管理

列设置

列设置提供了有助于管理列和此类列中的数据的选项。

输入图片说明

列设置的元素
1.查看/编辑数据 :将数据视图切换到编辑视图。
2.重命名列 :重命名列标题。
3.设置默认值 :自动将列中的空数据点设置为默认值。
4.设置正则表达式 :允许用户输入正则表达式以匹配和/或替换文本中的模式。
5.使用手动XPath :允许用户输入XPath以从HTML源代码手动选择网页的元素。
6.清除数据 :从列中删除所有数据。
7.必填字段 :根据需要设置列,并在此列的单元格为空时省略数据集中的所有行。
8.输出HTML :提取所选数据点的原始HTML。
9.捕获此链接的URL :提取URL以及链接文本。
10.下载此链接背后的内容/下载图像 :下载链接后面的文件或下载所选图像。
11.重复列 :在右侧创建所选列的副本。
12.添加列 :在所选列的右侧添加新列。
13.删除列 :删除所选列。
14.调整列标题的大小 :调整所选列的列标题的大小以尝试拟合数据。
15.调整所有列标题的大小 :调整所有列标题的大小以填充屏幕宽度。

重新排序列

要重新排序列,您可以拖放列标题。

输入图片说明

重命名多个列

重命名列时,您可以单击一个列标题并使用Tab键标记其他列以重命名这些列。

输入图片说明

提取链接

您可以捕获列的选定链接文本的URL。

要启用此设置,请单击列名称旁边的下拉图标以查看列设置,然后选择捕获此链接的URL。

输入图片说明

必填项目

启用必填字段允许您在特定列单元格为空时从数据集中排除行。

要启用此设置,请单击列名称旁边的下拉图标以查看列设置,然后选择必填字段。

输入图片说明

默认值

设置默认值允许您在列单元格为空时设置指定的值。

要启用此设置,请单击列名称旁边的下拉图标以查看列设置,然后选择设置默认值。

正则表达式

您可以使用正则表达式(也称为RegEx)重新格式化提取列中的文本字符串。 如果您是正则表达式的新手,请查看RegexOne以了解正则表达式和正则表达式入门文章。 我们还建议在创建正则表达式时使用RegExr。

输入图片说明

设置正则表达式界面
1.列名 :要为其创建正则表达式的列的名称。
2.可选的预设正则 :用于过滤文本字符串的预设正则表达式。 这将替换当前匹配和替换文本框中的任何内容。
3.匹配 :在此处输入正则表达式以匹配文本。
4.替换 :输入替换匹配或输出捕获组的文本的位置($1)。
5.关闭 :关闭窗口并保存正则表达式。
6.全部清除 :清除正则表达式。

results matching ""

    No results matching ""