大数据技术

通俗的解释

作者：张景旺
链接：https://www.zhihu.com/question/27696290/answer/38060468
来源：知乎

简单说有三大核心技术：拿数据，算数据，卖数据。

首先做为大数据，拿不到大量数据都白扯。现在由于机器学习的兴起，以及万金油算法的崛起，导致算法地位下降，数据地位提高了。举个通俗的例子，就好比由于教育的发展，导致个人智力重要性降低，教育背景变重要了，因为一般人按标准流程读个书，就能比牛顿懂得多了。谷歌就说：拿牛逼的数据喂给一个一般的算法，很多情况下好于拿傻傻的数据喂给牛逼的算法。而且知不知道弄个牛逼算法有多困难？一般人连这个困难度都搞不清楚好不好……拿数据很重要，巧妇难为无米之炊呀！所以为什么好多公司要烧钱抢入口，抢用户，是为了争夺数据源呀！不过运营，和产品更关注这个，我是程序员，我不管……

其次就是算数据，如果数据拿到直接就有价值地话，那也就不需要公司了，政府直接赚外快就好了。苹果落地都能看到，人家牛顿能整个万有引力，我就只能捡来吃掉，差距呀……所以数据在那里摆着，能挖出啥就各凭本事了。算数据就需要计算平台了，数据怎么存（HDFS, S3, HBase, Cassandra），怎么算（Hadoop, Spark）就靠咱们程序猿了……

再次就是卖得出去才能变现，否则就是搞公益了，比如《疑犯追踪》里面的李四和大锤他们……见人所未见，预测未来并趋利避害才是智能的终极目标以及存在意义，对吧？这个得靠大家一块儿琢磨。

其实我觉得最后那个才是“核心技术”，什么Spark，Storm，Deep-Learning，都是第二梯队的……当然，没有强大的算力做支撑，智能应该也无从说起吧。

作者：网易云
链接：https://www.zhihu.com/question/27696290/answer/381993207
来源：知乎

作者：刘殷宏
链接：https://www.zhihu.com/question/27696290/answer/38024235
来源：知乎

总的来说大数据有5个部分。数据采集，数据存储，数据清洗，数据挖掘，数据可视化。

数据采集有硬件采集，如OBD，有软件采集，如滴滴，淘宝。

数据存储就包括NOSQL，hadoop等等。

数据清洗包括语议分析，流媒体格式化等等。

数据挖掘包括关联分析，相似度分析，距离分析，聚类分析等等。

数据可视化就是WEB的了。

链接：http://developer.51cto.com/art/201506/480301.htm

所谓大数据不仅体现在数量上的庞大，还有涉及到的方面比较广泛，以及计算过程比较的庞大而高效等，大数据分析能够从海量的数据中提取出最有效的信息，在企业的营销中发挥关键性的作用，可以说谁能够更好的利用大数据分析就能够在竞争中处于更加有利的位置，那么大数据分析都包含了哪些技术呢?

第一、数据采集

对于任何的数据分析来说，首要的就是数据采集，因此大数据分析软件的第一个技术就是数据采集的技术，该工具能够将分布在互联网上的数据，一些移动客户端中的数据进行快速而又广泛的搜集，同时它还能够迅速的将一些其他的平台中的数据源中的数据导入到该工具中，对数据进行清洗、转换、集成等，从而形成在该工具的数据库中或者是数据集市当中，为联系分析处理和数据挖掘提供了基础。

第二、数据存取

数据在采集之后，大数据分析的另一个技术数据存取将会继续发挥作用，能够关系数据库，方便用户在使用中储存原始性的数据，并且快速的采集和使用，再有就是基础性的架构，比如说运储存和分布式的文件储存等，都是比较常见的一种。

第三、数据处理

数据处理可以说是该软件具有的最核心的技术之一，面对庞大而又复杂的数据，该工具能够运用一些计算方法或者是统计的方法等对数据进行处理，包括对它的统计、归纳、分类等，从而能够让用户深度的了解到数据所具有的深度价值。

第四、统计分析

统计分析则是该软件所具有的另一个核心功能，比如说假设性的检验等，可以帮助用户分析出现某一种数据现象的原因是什么，差异分析则可以比较出企业的产品销售在不同的时间和地区中所显示出来的巨大差异，以便未来更合理的在时间和地域中进行布局。

第五、相关性分析

某一种数据现象和另外一种数据现象之间存在怎样的关系，大数据分析通过数据的增长减少变化等都可以分析出二者之间的关系，此外，聚类分析以及主成分分析和对应分析等都是常用的技术，这些技术的运用会让数据开发更接近人们的应用目标。

大数据类型

大数据的类型大致可分为三类：
1) 传统企业数据(Traditional Enterprise Data)：

包括 CRM systems的消费者数据，传统的ERP数据，库存数据以及账目数据等。

2) 机器和传感器数据(Machine-generated/sensor data)：

包括呼叫记录(CallDetailRecords)，智能仪表，工业设备传感器，设备日志(通常是Digitalexhaust)，交易数据等。

3) 社交数据(Socialdata)：

包括用户行为记录，反馈数据等。如Twitter，Facebook这样的社交媒体平台。

数据挖掘

1948年辽沈战役的时候，林彪每天深夜都要求汇报每日军情，其实都是重复着一堆枯燥无味的数据：每支部队歼敌多少、俘虏多少、缴获的火炮、车辆多少、枪支、物资多少，还要统计出机枪、长枪、短枪，击毁和缴获尚能使用的汽车，也要分出大小和类别。

这种工作很繁琐，很累人，看不出有任何价值。然而，1948年10月份，林彪发现缴获的长短枪比例、大小车比例、军官与士兵的比例略微有些异常，从这些微妙的数字变化中他判断出国军司令廖耀湘的指挥所就在附近。

这就是数据挖掘。

作者：里芃芃
链接：https://www.zhihu.com/question/19637218/answer/94205546
来源：知乎

1 什么是数据挖掘/分析
简单地说就是，在大型数据库中，自动发现有用信息的过程，加以分析。其中数据库中的知识发现是重要的环节，也就是人们说的KDD，knowledge discovery in database。

2 KDD是什么
其实就是一个数据处理的过程，从输入数据开始，进行预处理工作，包括特征选择，维归约规范化和选择数据子集等等，随后进行分析和挖掘，再经过处理，例如模式过滤，可视化，模式表示等，最后形成可用信息的过程。

3 数据挖掘要解决什么问题
具体的讲主要是以下几个，首先是数据的可伸缩性，提高或改变数据的可伸缩度。其次是解决数据高维性的问题。处理异种数据和复杂数据。解决数据所有权与分布问题。对非传统的分析进行合理处理。

4 数据挖掘的任务
其实主要包括四个大块，可以独立运行，也可以联合操作，分别是聚类分析，预测建模，关联分析，异常检测。
聚类分析实用的技术包括K均值，凝聚层次聚类，dbscan，簇评估等，主要目的是通过基于原型，密度，图等的聚类，发现其间的关系。
预测建模则更多的是一种可视化角度分析方法，利用分类，回归等方法，来建立模型解决问题。
关联分析顾名思义，更多强调数据中的特征强关联，例如说过一万次的啤酒与尿布等。
异常检验则主要是识别不同于其他数据的具有显著特征值的数据。

5 基础知识有什么
想学习数据挖掘，几个基础知识是必备。首先是线性代数，包括向量，矩阵等。否则你根本不会是用科学工具。其次是维归约，包括PCA，SVD等技术的使用。还有概率统计，回归方程，优化，也是必备知识。暂时写这么多，有时间再多说些。

参考： https://www.zhihu.com/question/19637218

机器学习

转载：机器学习原理(1)

　　随着人们对机器学习在很多关键领域的应用如数据挖掘、自然语言处理、图像识别和专家系统等方面所扮演的重要角色的认识越来越深入，机器学习变得如火如荼。机器学习能够在所有这些和更多的领域提供潜在的解决方案，并且将成为我们未来文明的支柱。

机器学习是什么？

　　那么机器学习到底是什么呢？机器学习实际上包括很多很多。这个领域是相当巨大，，并且还在快速的拓展，正在继续在不同的子专业和机器学习方面产生分支和子分支。

　　然而，这里有一些基本的普遍线索，早在1959年，由亚瑟·塞缪尔(Arthur Samuel)的方式做出的这个经常被引用的陈述是最好的主题总结：

[Machine Learning is the] field of study that gives computers the ability to learn without being explicitly programmed.

之后，在1997年，卡内基梅隆大学(Carnegie Mellon University)的汤姆·米切尔(Tom Mitchell)给出了一个合适的定义，给工程学提供了更多有用的东西：

A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E.

所以如果你想让你的程序能够预测一些事情，例如在一个繁忙的十字路口的交通模式，你可以通过一个机器学习算法，加载着关于过去交通模式的数据运行，然后，如果它成功地“学”到了一些东西，那么它将会在预测将来的交通模式方面做得更好。

　　虽然许多高度混合的实际问题本质经常会意味着发明特殊的算法将会每次都能完美地将其解决，但这是不明智的，即使不是不可能实现的。机器学习问题的例子包括：“这是癌症吗？”“这栋房子的市场价值怎么样？”“这些人中哪些人跟哪些人会是好朋友？”“起飞后火箭引擎会爆炸吗？”“这个人喜欢这部电影吗？”“这个人是谁？”“你刚说了什么？”以及“你如何机智地处理这件事？”。所有的这些问题对于机器学习项目来说都是极好的目标，并且事实上机器学习已经成功地应用到这些问题中的每一个上面去了。

ML solves problems that cannot be solved by numerical means alone.

在不同类型的机器学习任务中，一个至关重要的区别就是在于有监督式学习和无监督式学习：

有监督式学习：这个问题是在一个预先定义的训练样例中训练，然后促使它的能力达到给出新数据的时候有精确地结论的地步。
无监督式学习：这个问题会被给出一系列的数据，并且必须寻找模式和内在的关系。

(本文为翻译版本，如翻译有误欢迎指出)

(原文英文版出处：https://www.toptal.com/machine-learning/machine-learning-theory-an-introductory-primer)

其他参考

非码农也能看懂的“机器学习”原理

大数据分析工具

大数据应用

1. 梅西百货的实时定价机制。根据需求和库存的情况，该公司基于SAS的系统对多达7300万种货品进行实时调价。

2. Tipp24 AG针对欧洲博彩业构建的下注和预测平台。该公司用KXEN软件来分析数十亿计的交易以及客户的特性，然后通过预测模型对特定用户进行动态的营销活动。这项举措减少了90%的预测模型构建时间。SAP公司正在试图收购KXEN。

3. 沃尔玛的搜索。这家零售业寡头为其网站Walmart.com自行设计了最新的搜索引擎Polaris，利用语义数据进行文本分析、机器学习和同义词挖掘等。根据沃尔玛的说法，语义搜索技术的运用使得在线购物的完成率提升了10%到15%。“对沃尔玛来说，这就意味着数十亿美元的金额。”Laney说。

4. 快餐业的视频分析。该公司通过视频分析等候队列的长度，然后自动变化电子菜单显示的内容。如果队列较长，则显示可以快速供给的食物;如果队列较短，则显示那些利润较高但准备时间相对长的食品。

5. Morton牛排店的品牌认知。当一位顾客开玩笑地通过推特向这家位于芝加哥的牛排连锁店订餐送到纽约Newark机场（他将在一天工作之后抵达该处）时，Morton就开始了自己的社交秀。首先，分析推特数据，发现该顾客是本店的常客，也是推特的常用者。根据客户以往的订单，推测出其所乘的航班，然后派出一位身着燕尾服的侍者为客户提供晚餐。

6. PredPol Inc.。PredPol公司通过与洛杉矶和圣克鲁斯的警方以及一群研究人员合作，基于地震预测算法的变体和犯罪数据来预测犯罪发生的几率，可以精确到500平方英尺的范围内。在洛杉矶运用该算法的地区，盗窃罪和暴力犯罪分布下降了33%和21%。

7. Tesco PLC（特易购）和运营效率。这家超市连锁在其数据仓库中收集了700万部冰箱的数据。通过对这些数据的分析，进行更全面的监控并进行主动的维修以降低整体能耗。

8. American Express（美国运通，AmEx）和商业智能。以往，AmEx只能实现事后诸葛式的报告和滞后的预测。“传统的BI已经无法满足业务发展的需要。”Laney认为。于是，AmEx开始构建真正能够预测忠诚度的模型，基于历史交易数据，用115个变量来进行分析预测。该公司表示，对于澳大利亚将于之后四个月中流失的客户，已经能够识别出其中的24%。

转载：八个典型的大数据应用案例

大数据是当今IT业最火爆的词汇，管理学界和财经媒体也对其推崇备至，认为大数据是信息技术改变商业世界的杀手应用，但是关于大数据成功案例的报道却出奇地少，以下IT经理网为大家遴选四个成功挖掘大数据商业价值，提升生产力，获得高ROI回报的企业案例：

TXU Energy——智能电表：

有了智能电表，供电公司能每隔15分钟就读一次用电数据，而不是过去的一月一次。这不仅仅节省了抄表的人工费用，而且由于能高频率快速采集分析用电数据（产生大数据），供电公司能根据用电高峰和低谷时段制定不同的电价，TXU Energy就利用这种价格杠杆来平抑用电高峰和低谷的波动幅度。例如，TXU Energy打出了这样的宣传口号：亲，晚上再洗衣服洗碗吧，晚上用电不要钱。实际上，智能电表和大数据应用让分时动态定价成为可能，而且这对于TXU Energy和用户来说是一个双赢变化。

T-Mobile

移动运营商T-Mobile在多个IT系统中整合了大数据应用，对客户交易和互动数据进行综合分析，更准确地预测客户流失率。通过将社交媒体数据和CRM和计费系统中的交易数据进行综合分析，T-mobile在一个季度内将客户流失率降低了一半！

US Xpress

US Xpress部署了一系列的运输大数据应用，采集上千种数据类型，从油耗、胎压、卡车引擎运行状况到GPS信息等，US Xpress甚至从司机们抱怨该系统的博客中收集数据，并通过分析这些数据来优化车队管理、提高生产力、降低油耗，每年节省了数百万美元的运营成本。

麦克拉伦一级方程式车队(Mclaren’s F1 racing team)

麦克拉伦车队通过汽车传感器在赛前的场地测试中实时采集数据，结合历史数据，通过预测型分析发现赛车问题，并预先采取正确的赛车调校措施，降低事故几率并提高比赛胜率。

转载：大数据的四个成功案例

　　例子1：在09年流感爆发的时候，google通过对人们输入词条的分析，挖掘出了有效及时的指示标，比通过层层收集的官方数据惊人很多。

　　例子2：Farecast通过对于机票数据的趋势变化情况，提供票价预测的服务，目前公布准确度高达75%，现在被微软收购，整合在了bing的搜索中。

　　例子3：Xoom是从事跨境汇款业务的公司，处理过的一个案例是，单独看一笔交易是合法的，但是重新检查了所有的数据之后，发现犯罪集团正在进行咋骗。

　　例子4：hadoop分析VISA的数据，将原来需要一个月的时间缩短为13分钟。

　　例子5：亚马逊三分之一的销售额来自个性化推荐系统。

　　例子6：美国折扣零售商能够通过用户购买商品的历史，判断出是否怀孕。

　　例子7：UPS有6W辆车，通过对车俩损害的数据挖掘，能够及时的预测那些车辆需要维修，达到预警的目的。

　　例子8：日本通过研究驾驶员的坐姿数据，用来作为汽车防盗系统中。

　　例子9：UPS通过对于位置数据的分析，获取最佳行车路径。

　　例子10：IBM开发了一套复杂的预测模型，完成了电动汽车动力与电力供应系统的预测。

　　例子11：微软和谷歌以及百度等搜索引擎的拼写检查以及纠错提示，有效的利用的数据废气。

　　例子12：巴诺通过分析人们在阅读的时候的行为，得出人们往往会放弃长篇幅的非小说类书籍。

　　例子13：The-numbers通过对于历史电影相关的数据的相关关系，来预测电影票房。

转载：13个经典大数据应用案例

2012年大数据公司Splunk公司成功上市，对风投机构价格向大数据领域投资力度起到推波助澜的作用，数据分析和商业智能等与大数据有关的其他版块也将获得发展机会。

Splunk的技术方案在于帮组IT部门监控并分析来自不同来源、设备或机器的数据，其中包括日志、性能指标、事件等等。

Splunk只是是运营比较成功的大数据公司之一，还有其它更多的大数据应用在各行各业发挥其巨大的作用。

例如：

　　1. 梅西百货的实时定价机制。根据需求和库存的情况，该公司基于SAS的系统对多达7300万种货品进行实时调价。

　　9.对于体育爱好者，追踪电视播放的最新运动赛事几乎是一件不可能的事情，因为有超过上百个赛事在8000多个电视频道播出。

　　而现在市面上开发了一个可追踪所有运动赛事的应用程序RUWT，它已经可以在iOS和Android设备，以及在Web浏览器上使用，它不断地分析运动数据流来让球迷知道他们应该转换成哪个台看到想看的节目，在电视的哪个频道上找到，并让他们在比赛中进行投票。对于谷歌电视和TiVo用户来说，实际上 RUWT就是让他们改变频道调到一个比赛中。

　　该程序能基于赛事的紧张激烈程度对比赛进行评分排名，用户可通过该应用程序找到值得收看的频道和赛事。

　　10.五年前，LinkedIn只是一家普通的科技公司。而现在，其俨然成为一个工程强国。 LinkedIn建成的一个最重要的数据库是Espresso。不像Voldemort，这是继亚马逊Dynamo数据库之后的一个最终一致性关键值存储，用于高速存储某些确定数据，Espresso作为一个事务一致性文件存储，通过对整个公司的网络操作将取代遗留的Oracle数据库。它最初的设计就是为了提供LinkedIn InMail消息服务的可用性，该公司计划今年晚些时候将推出开源Espresso。

　　11.Seton Healthcare是采用IBM最新沃森技术医疗保健内容分析预测的首个客户。该技术允许企业找到大量病人相关的临床医疗信息，通过大数据处理，更好地分析病人的信息。

　　在加拿大多伦多的一家医院，针对早产婴儿，每秒钟有超过3000次的数据读取。通过这些数据分析，医院能够提前知道哪些早产儿出现问题并且有针对性地采取措施，避免早产婴儿夭折。

　　它让更多的创业者更方便地开发产品，比如通过社交网络来收集数据的健康类App。也许未来数年后，它们搜集的数据能让医生给你的诊断变得更为精确，比方说不是通用的成人每日三次一次一片，而是检测到你的血液中药剂已经代谢完成会自动提醒你再次服药。

　　Express Scripts就是这么一家处方药管理服务公司，目前它正在通过一些复杂模型来检测虚假药品，这些模型还能及时提醒人们何时应该停止用药。 Express Scripts能够解决该问题的原因在于所有有关数据。因为它每年管理着1.4亿处方，覆盖了一亿美国人和65,000家药店，虽然该公司是能够识别潜在问题的信号模式，但它也使用数据来尝试解决某些情况下之前曾经发现的问题。

　　同时，Express Scripts还着眼于一些事情，如他们所开处方的药物种类，甚至有人在网上谈论医生。如果一个医生的行为被标记为红色的旗帜，那么他在网络上是个好人的形象，更是你所需要的医生。

　　12.保险行业并非技术创新的指示灯，然而MetLife保险公司已经投资3亿美金建立一个新式系统，其中的第一款产品是一个基于MongoDB的应用程序，它将所有客户信息放在同一个地方。

　　MongoDB汇聚了来自70多个遗留系统的数据，并将它合并成一个单一的记录。它运行在两个数据中心的6个服务器上，目前存储了24TB的数据。这包括MetLife的全部美国客户，尽管它的目标是扩大它的国际客户和多种语言，同时也可能创建一个面向客户的版本。它的更新几乎是实时的，当新客户的数据输入时，就好像Facebook墙一样。

　　大多数疾病可以通过药物来达到治疗效果，但如何让医生和病人能够专注参加一两个可以真正改善病人健康状况的干预项目却极具挑战。安泰保险目前正尝试通过大数据达到此目的。

　　安泰保险为了帮助改善代谢综合症患者的预测，从千名患者中选择102个完成实验。在一个独立的实验室工作内，通过患者的一系列代谢综合症的检测试验结果，在连续三年内，扫描600,000个化验结果和18万索赔事件。将最后的结果组成一个高度个性化的治疗方案，以评估患者的危险因素和重点治疗方案。这样，医生可以通过食用他汀类药物及减重5磅等建议而减少未来10年内50%的发病率。或者通过你目前体内高于20%的含糖量，而建议你降低体内甘油三酯总量。

　　13.专业篮球队会通过搜集大量数据来分析赛事情况，然而他们还在为这些数据的整理和实际意义而发愁。通过分析这些数据，可否找到两三个制胜法宝，或者至少能保证球队获得高分? Krossover公司正致力于此。

　　在每场比赛过后，教练只需要上传比赛视频。接下来，来自Krossover团队的大学生将会对其分解。等到第二天教练再看昨晚的比赛时，他只需检查任何他想要的——数据统计、比赛中的个人表现、比赛反应等等。通过分析比赛视频，毫不夸张地分析所有的可量化的数据。

　　14.智能电网现在欧洲已经做到了终端，也就是所谓的智能电表。在德国，为了鼓励利用太阳能，会在家庭安装太阳能，除了卖电给你，当你的太阳能有多余电的时候还可以买回来。通过电网收集每隔五分钟或十分钟收集一次数据，收集来的这些数据可以用来预测客户的用电习惯等，从而推断出在未来2~3个月时间里，整个电网大概需要多少电。有了这个预测后，就可以向发电或者供电企业购买一定数量的电。因为电有点像期货一样，如果提前买就会比较便宜，买现货就比较贵。通过这个预测后，可以降低采购成本。

　　维斯塔斯风力系统，依靠的是BigInsights软件和IBM超级计算机，然后对气象数据进行分析，找出安装风力涡轮机和整个风电场最佳的地点。利用大数据，以往需要数周的分析工作，现在仅需要不足1小时便可完成。

　　15.印度有一档非常受欢迎的电视节目Satyamev jayate，该节目整理并分析社会民众关于争议话题的各种意见，包括女性堕胎、种姓歧视和虐待儿童等社会热点问题，并使用这些数据来推进政治改革。

　　-来自印度电视和世界各地的YouTube上的400万观众;

　　-超过1.2亿人在其网站、Facebook，Twitter，YouTube和移动设备上已连接Satyamev jayate;

　　-超过800万的人通过Facebook，网络注释，文本消息及电话热线等方式发送14万个回应，每周有超过10万个新观众进行回应。

　　16.在洛杉矶开过车的人一定都经历过那里噩梦般的交通拥堵情况。目前政府在I-10和I-110州际公路上建立了一条了收费的快速通道。政府可通过大数据引导驾驶人员在该通道上的行驶情况，保证交通畅通。

　　施乐就是参与此次项目的公司，它的抗拥塞项目，包括用ExpressLanes、动态定价，上升的需求等等以维持某种秩序的想法。施乐公司的首席技术执行官Natesh Manikoth表示，如果司机支付给驾驶热车道(高占用收费系统)，他必须保证车速每小时45英里左右。如果交通开始拥堵，私家汽车的支付价格将上升，以减少他们进入，而将车道用于高占用率的车辆，例如公共汽车和大巴车。

　　施乐还有另一个项目在洛杉矶称为ExpressPark，目标是让人们知道他们何时即将离开房子，在哪能找到停车场和花费金额。不仅要确保定价，同时更要确保数据实时到达用户手中。例如，应当提前40分钟告知用户停车位置。

　　17.当问起汽车的制造过程，大多数人脑子里随即浮现的是各种生产装配流水线和制造机器。然而在福特，在产品的研发设计阶段，大数据就已经对汽车的部件和功能产生了重要影响。

　　比如，福特产品开发团队曾经对SUV是否应该采取掀背式(即手动打开车后行李箱车门)或电动式进行分析。如果选择后者，门会自动打开、便捷智能，但这种方式会影响到车门开启有限的困恼。此前采用定期调查的方式并没有发现这个问题，但后来根据对社交媒体的关注和分析，发现很多人都在谈论这些问题。

　　18.“我们的某个客户，是一家领先的专业时装零售商，通过当地的百货商店、网络及其邮购目录业务为客户提供服务。公司希望向客户提供差异化服务，如何定位公司的差异化，他们通过从 Twitter 和 Facebook 上收集社交信息，更深入的理解化妆品的营销模式，随后他们认识到必须保留两类有价值的客户：高消费者和高影响者。希望通过接受免费化妆服务，让用户进行口碑宣传，这是交易数据与交互数据的完美结合，为业务挑战提供了解决方案。”Informatica的技术帮助这家零售商用社交平台上的数据充实了客户主数据，使他的业务服务更具有目标性。

　　零售企业也监控客户的店内走动情况以及与商品的互动。它们将这些数据与交易记录相结合来展开分析，从而在销售哪些商品、如何摆放货品以及何时调整售价上给出意见，此类方法已经帮助某领先零售企业减少了17%的存货，同时在保持市场份额的前提下，增加了高利润率自有品牌商品的比例。

　　19.许多人通过Facebook更新个人状态、分享图片以及他们"喜欢"的内容。奥巴马的总统竞选运动也通过使用社交网络的各种数据功能完成了竞选，他们不仅通过社交网络寻找支持者，而且还通过社交网络召集了一批志愿军。

　　早在2006年，Facebook联合创始人，克里斯·休斯就建议扎克伯格在网站上推出相关服务，帮助总统候选人在Facebook上建立个人主页，以便他们进行形象推广。2006年9月，Facebook全面开放，用户数量爆炸式增长，在年底达到1200万。这一过程恰好有利地推升了奥巴马的知名度。此后，在克里斯的辅佐下，奥巴马掀起了一系列的网络活动，在Facebook、MySpace等社交网站上发表公开演讲、推广施政理念，赢得大量网民支持，募集到5亿多美元的竞选经费。

　　最终，"黑人平民"战胜了实力雄厚的对手，成为美国历史上第一位黑人总统，之后，在第二次的选举中更获得连任。此次选举被认为是美国民主的巨大进步，而互联网则提供了前所未有的实施手段，其中尤以Facebook代表的社交网站最为突出，以至于有人戏称之为"Facebook之选"。

　　20.MailChimp的核心业务是提供电子邮件服务，它在一年内为大约300万用户发送了350亿封邮件。不过真正能体现MailChimp未来价值的则是该公司对这些邮件数据的处理和分析。

　　MailChimp的一个重要任务就是搞清楚如何帮助客户更好地了解他们所发送的信息。考虑到这一点，该公司建立了一个服务叫Wavelength，向客户展示了与他们相似的其他讯息。这个系统使得Wavelength能够储存公司数据库中每个邮件地址发生的互动。这意味着告诉了你,用户打开了什么样的邮件，何时打开，他们点击了什么链接，还有订阅了什么邮件。MailChimp也有一个功能叫做Ecommerce360，能让客户通过转换来跟踪点击。

　　21.十多年前，音乐元数据公司Gracenote收到来自苹果公司的神秘忠告，建议其购买更多的服务器。Gracenote照做了，而后苹果推出iTunes和iPod，Gracenote从而成为了元数据的帝国。

　　在车内听的歌曲很可能反映你的真实喜好， Gracenote就拥有此种技术。它采用智能手机和平板电脑内置的麦克风识别用户电视或音响中播放的歌曲，并可检测掌声或嘘声等反应，甚至还能检测用户是否调高了音量。这样，Gracenote可以研究用户真正喜欢的歌曲，听歌的时间和地点。

　　Gracenote拥有数百万首歌曲的音频和元数据，因而可以快速识别歌曲信息，并按音乐风格、歌手、地理位置等分类。

转载：大数据应用案例

参考文档

https://www.techopedia.com/definition/27745/big-data
大数据时代：银行如何玩转数据挖掘
商业银行如何运用大数据技术？

大数据学习笔记

今天大概了解学习了一下大数据的内容，整理一下。非原创，转载或翻译。