你的分析流程🔮
让我们通过以下数据分析来了解Bayeslab的大部分重要功能
数据导入
我们首先导入这些数据并看看数据是什么样的:

因此,它有接近30k行,其中包含一些列,例如人口统计信息、用户分类、购买统计。
现在,下一步。

Bayeslab为该表提出了类型和描述,并对如何使其更好地进行分析提出了一些建议。
类型和描述对于AI正确执行操作非常重要。请确保其正确且包含足够的细节,尤其是那些不为人所知的细节。
例如
生命周期列包含A、B、C级别。最好能具体说明这些级别的含义以及是否还有其他选择。
性别列是数字,但最好指定每个数字的含义。
我们知道这些数据是来自在线服务的用户行为信息,所以我们将表名改为 user_behavior,以更好地表示这组数据集的性质。
然后确认。

利用AI进行探索
首先让AI分析一下这些数据,看看我们能得到什么:

它提到了A、B、C阶段没有明确定义(暂时忽略)、一些缺失值和一些潜在关系的问题。
很高兴知道。
另外,下面还有一些有趣的工具:

自动制图
让我们尝试自动探索,通过单击新添加的块中的“自动图表”和“运行”,看看会发生什么。

我们可以看到一些自动分析和分布的完成,通过观察该图表获得见解,以及一些关于如何改进图表的建议。
产生了相当多的知识需要吸收。
分析思路
现在我们想看看还能从这些数据中得到什么,点击分析思路:

一些有趣的想法,解释了数据需求/视觉效果和目标。我们以后一定会尝试一些。
清洁/改造
让我们亲自动手直接处理数据,比如说我们首先对这些数据进行一些清理/转换。经验基本上就是说清楚:

可以看到结果里有一个“Filter and Normalized DataFrame”,点击它表示数据已经按照我们的提示进行了清理。
我们可以通过引用这个结果(使用//)在下一个块中继续处理这些数据并说出我们想要的内容。

这里的结果(如最终结果数据框)是临时的,当你与机器断开连接时将被清除。
如果您想保存结果,您可以通过说"写回"或类似下面的任何内容来写回结果

制图
让我们根据前面步骤中Al的建议,通过可视化进行进一步分析。
让我们看看年龄组如何影响收入。

您可以看到分析结果实际上使用常识对数据进行了更多推断,例如0-20等于“年轻人”。
定制
标题和位置看起来不太好,我们可以通过单击图表上的"编辑"来更改它。

欲了解更多详情,请参阅图表。
预测
尽管我们可能内心并不了解机器学习,但我们仍然愿意做一些预测和假设。

用一行代码,我们可以建立一个预测模型,根据年龄/性别和过去的订单金额来预测收入。
并使用另一条线来预测

请特别注意输出中的R平方值。
R2衡量独立变量对因变量方差的解释能力。其范围从0到1:
0: 该模型不能解释任何方差。
1: 模型解释了所有的差异。
所以在上面的样本中,模型实际上非常非常糟糕(R平方=0.069)。这意 味着我们选择的因素与收入没有明确的关系,或者我们需要尝试其他模型。
Share
Finally, someone in our team would like to see this analysis and maybe throw a bunch of questions on his own.

Make sure you check the "Include data table" option so your friend would be able to reproduce everything and do more with the data.
Last updated