庞大数据,一键分析,AI赋能版Excel

2021-11-21 10:14:00

数据对于现代企业的重要程度不言而喻，拥有卓越的数据分析能力可在市场上拥有更大的竞争优势。然而企业用户和一些决策者对于数据分析仍然有一些误解和偏见。比如：

“我们企业并不需要机器学习这样的高级分析工具。”

“我们有很多数据，但是分析没啥用。”

“我们要进行数据分析就必须要聘请一批数据科学家！”

接下来我们一一揭开这些对于数据分析迷之误解背后的真相。

1，“为了部署像机器学习（ML）这样先进的分析技术，我们必须购入新硬件和大量投资专用基础设施。”

真相：部署高级的数据分析其实没你想象中那么遥远。

许多公司已经拥有大量的高级分析基础设施。例如，工厂车间通常有数千个传感器，但通常不是所有的传感器都被使用，因为它们产生的数据是纷杂的，那么能够很好的管理，存储和集成所有的数据就是一个很好的起点。

如果没有可用于分析的大量现有硬件，也不用太担心，许多云服务提供商（CSP）就可以提供现成的高级分析功能。利用这些资源运行一些试验项目，并由此制定有效的使用案例，然后可以制定一个长期投资路线图，并清楚了解投入产出比。

如果选择内部运行，则可以使用现有的基于英特尔技术的平台来经济高效地支持新项目。

2，“我们不需要像机器学习这样的高级分析工具。”

真相：无论企业规模大小，每个企业都需要高级分析。

很多企业都在做数据分析，也不乏很多企业还在用excel或者简单的在线系统报告来做“数据分析”。

真正的数据分析当然没有那么简单，不过分析数据的第一步是要知道手中到底掌握什么数据，在分析之前就要组织好。简单的在线系统报告显然已经过时了，拜托，现在可是在数据爆炸的时代。

要跟上竞争的步伐，了解数据的实时趋势，使用当前的数据来预测和影响明天会发生的事情，这一点很重要。运用先进的机器学习和其他人工智能技术，可以更快速地理解更多类型和更大量的数据。例如，人工智能技术可以帮助企业在业务流程中自动处理来自文本和图像的信息，这有助于更高效的决策。随着这些数据分析方式变得更加主流，那些不接受它们的人就肯定out啦。

3，“我们有很多数据，但分析不起作用。”

真相：分析数据当然是有用的，但是分析的必须是有效的数据。

在一个高级数据分析的项目中，经常会遇到这样的抱怨“费功夫分析了这么大量的数据，最后得出的怎么还是错误的结果？

这与数据的质量有关。企业在分析数据之前需要有效的方式来收集数据，并进行去重和实时更新。AI（人工智能）和ML（机器学习）算法只能处理给定的数据，所以低质量的数据意味着低质量的结果。所以正确的使用数据管理策略，才会获得真知灼见。

4，“要做数据分析，我们需要聘请一批数据科学家！”

真相：远在天边，近在眼前。

其实不是每个公司都需要一个常驻博士或者数据科学家。了解业务需求和掌握有效数据对决策者才是至关重要的。填补一个数据科学家的职位可能会非常棘手，特别是有特定产品或对专业知识要求极高的行业，并不一定有非常匹配的数据科学家可以有效地发挥作用。所以说借助一些数据分析工具或者开展一些专业培训，在企业内部可能已经培养出了所需的专家。

另一种方法是让运营业务人员直接运用数据分析工具。借助基于云的服务可以清理和处理企业的数据，并提供出展示洞察的算法，这可以使得企业的业务专家转变为数据专家。

5，“要去分析每一个数据”

真相：分析每一个数据是不可能的，也是不必要的。衡量什么是战略才是至关重要的。

当企业开始收集和整合数据时往往会遇到一个很大的诱惑——使用它的一切。但是这种方法可能会变得笨重和昂贵，而且大量不相关的信息会对结果产生不利影响。不断自省正在分析哪个数据集是非常重要的。如果正在分析的这一部分数据是没有商业需求的，那大可以去分析更重要的数据。

这里要强调的就是数据分析要基于业务需求。企业正在部署什么？企业一旦知道了这一点就可以设定可衡量的目标，基于这个目标去开展数据分析工作。

6，“高级数据分析意味着企业需要雇用额外的IT人员。”

真相：现有团队其实足以迎接挑战。

对于一个企业来说，如果有自己的IT团队，那么数据分析方面是有基础的，也可能已经取得一些进展。数据分析最初的工作更多的是充分利用现有的数据。在有基础且有数据分析能力的情况下，企业就有机会吸引才华横溢的IT专家，他们会津津乐道地组织分析创新领先的机会。

还有一种方法就是盘点公司内部已有的数据分析能力，并与外部顾问（如行业分析师或供应商）合作，获取他们的建议并开展相关培训。如企业选择内部开发算法，可以通过FaaS模型（Function as a Service,功能即服务，是一种无服务器计算，是IaaS演进的下一个阶段，它将底层基础架构从开发人员中分离出来,基本上虚拟化了运行和运营管理，无服务器架构允许开发者执行给定的任务,而不必担心服务器、虚拟机或底层计算资源，可极大地减少操作开销和周期。）将其提供给组织内的其他人，以最大限度地减少开发时间。

所以无论企业规模大小，都应该开展数据分析，数据分析也并不是遥不可及，企业要激发自有IT团队的能力，充分释放数据潜力，让企业增强市场竞争力。

电子表格无论在专业领域还是在日常生活中都是一种广泛使用的重要数据形式，对于Excel这一“装机必备”的电子表格处理软件相信大家都不陌生。繁杂庞大的电子表格数据在Excel各种强大功能的帮助下都可以变得条理清晰，给我们的工作和生活带来了极大的便利。

就在前天，微软Office 365发布了Excel新的预览版, 该版本引入了Insights in Excel功能，只需要用Excel打开电子表格并点击Insights按钮，机器就能够在短时间内自动分析表格数据、捕捉数据之间的关联、挖掘数据中蕴含的洞见、并推荐简洁明了的图文分析结果。该功能背后的核心技术来自于微软亚洲研究院软件分析组。而这也是继PowerPoint Designer功能之后，微软再次将人工智能应用到Office软件中。

以后我们就能“一键变懒”啦！惊喜不惊喜？意外不意外？

Insights in Excel：自动发现数据中的洞见

现有的Excel已经具有强大的功能，可以帮助用户进行数据加工、计算和基本的统计分析，从而把原始数据制作成面向用户友好的、有利于高效信息展示的电子表格。然而制作成电子表格并不是数据处理和分析的全部，甚至只是一个开始。

试想在一个典型的Excel文档中，电子表格可以包含很多行或很多列（数据维度），不同维度之间可以包含不同类型、不同语义的数据，表面上看只是密密麻麻纵横交错的时间、文本和数字，而大量潜在的洞见恰恰隐藏在众多维度的数据及其子集所组合成的巨大的信息空间里。比如在一份包含了主要汽车品牌近几年销售详情的电子表格中，某个品牌的某种车型在某地区的销售趋势与其他品牌同车型在相同地区的销售趋势有很大差异，这就是一种深藏在数据当中的洞见。

在电子表格的制作、编辑或浏览的交互式过程当中，及时地发现这种有价值的洞见，并以简洁明了的图文形式插入到当前电子表格中并保存或分享出去，是对Excel工具以及数据智能化的一种革命性提升。这就是Insights in Excel的核心理念和功能。

Insights in Excel功能演示动画

智能分析背后的挑战与技术突破

然而，洞见的隐藏性以及其分布在巨大信息空间中的稀疏性，决定了发现这些洞见是人类用户手动分析所不能及的；即便依靠机器强大的运算能力，想在交互式数据处理的短时间内挖掘出大量有用的洞见，也要依赖高度智能化的算法并结合数据分析的大量领域知识。

同时，电子表格具有其领域独有的数据特点。直观地讲，用户在设计和制作电子表格的时候，通常会以方便人类阅读和理解为准则，比如采用交叉或排比化的表格布局以方便数据定位和比较、插入空白行或列以方便视觉上的整齐和对照、将大的表格拆分成若干小表格以方便分别审阅、在表格周围添加标题或注脚以做进一步说明等等。但是，这些面向人类用户友好的特点对于机器来说反而是很不友好的，甚至每一个都能成为巨大的挑战。因为对于机器来讲，统一的数据格式和规范才最有利于自动化批量处理，而电子表格数据通常不满足这样的要求，于是就需要智能化的算法帮助机器从各式各样的电子表格中准确高效地提取和转化出数据，以进行后续的自动化洞见分析。

这项智能化功能背后的诸多挑战可以归结为如下两大技术模块去解决：Spreadsheet Intelligence（智能化表格认知）和Auto Insights（自动化洞见分析）。

Spreadsheet Intelligence包括表格检测（表格在哪里？除去标题和注脚，表格边界从哪里到哪里？）、结构识别（表格内部是什么布局？哪部分是表头？哪部分是数据？哪些数据属于同一维度？等等）、元数据识别（每个维度各是什么数据类型？有没有时间序列？聚集函数应该选求和还是取平均？等等）。在研发阶段，研究团队基于大规模训练样本，尝试了多种机器学习和深度学习模型，并有效地将机器学习模型与高效率的启发式规则结合起来，将最实用的技术转化到产品中去。经过了Spreadsheet Intelligence技术处理之后，电子表格的数据就可以被转化为类似于数据库中的规范化数据以能被机器正确地解读，再传送给后续的Auto Insights技术进行自动化洞见分析。

Auto Insights包括以下四个核心问题：

1、洞见（Insight）的泛化定义及形式化阐述；

2、跨类型可比较的、且可推广到尚未支持的新类型上的洞见打分模型；

3、高度优化的洞见搜索框架；

4、洞见结果的有机组织和去冗余。

通过数据中提供的量化指标刻画的一个或多个具备语义含义的数据子集，如果它们的指标在平凡的假设下具有显著的统计特性，那么这就构成了一个洞见。比如一个垄断的市场在市场份额服从幂律分布的假设下可以是显著的，再比如一个具有明显周期性的销售额曲线在无周期信号的假设下可以是显著的，等等，这些都是洞见的例子。那么人们自然会想，一个垄断市场洞见和一个周期性销售洞见，哪个应该打更高的分数来表示更有价值呢？

对背后打分模型的一种近似但直观的解读包含以下两个主要因素：影响力（Impact）和显著性（Significance）。一个洞见的影响力可以直观地近似理解为其数据主体在整个数据集中占有的分量，而显著性用来刻画其数据主体的量化指标偏离平凡情况的程度。由于这两个因素都是归一化的且具备单调性，因此融合了这两个因素的打分模型可以对不同类型的洞见进行公平的打分比较，而且可以推广到尚未支持的更多的洞见类型。Auto Insights的相关工作已经在今年5月份发表在数据库领域顶级会议SIGMOD 2017的论文集里，下图就摘选自该论文《Extracting Top-K Insights from Multi-dimensional Data 》中阐述显著性的部分。

论文链接：http://dl.acm.org/authorize?N37708

洞见打分模型中的显著性模型示意图

不忘初心，砥砺前行

Insights in Excel的诞生离不开微软亚洲研究院软件分析组和Excel产品部门的共同努力。在此之前，软件分析组就曾和微软Power BI产品团队合力将Auto Insights研究成果转化成了Power BI 的一系列“快速洞察”（Quick Insights）功能。从今年3月份起，软件分析组的研究团队针对电子表格数据的特点，对Spreadsheet Intelligence进行技术攻关，仅用了短短九个月的时间，就让Excel迈出了数据分析智能化的第一步。相信在未来，软件分析组与产品团队的携手并进，将为大家提供最高效的分析工具，让数据分析变得更直观、快速，互动性和洞察性更强。

Insights in Excel幕后研发团队——微软亚洲研究院软件分析组成员

小编

个人微信：17600097137

看我最新AI热点事件

长按二维码关注