2016年4月20日,“中国信息通信大数据大会”于北京召开。在本次大会上,工业和信息化部通信发展司司长闻库、中国通信信息化部副总经理兼CTO范济安、中国电信云计算中心主任赵慧玲等嘉宾出席了本次大会。
天云大数据副总裁李从武
以下是李从武演讲实录:
感谢大会给我这个机会来介绍一下我们在大数据实践方面的一点体会。相对前面几个单位,我们还是一家小一点的公司,小的很多的公司,所以先简单介绍一下我们自己是谁。我们在IT里头是一家很年轻的公司,我们几年前才成立,所以我们不像很多其他做大数据的公司,他们可能以前是做其他的IT服务,我们是一家专门为大数据而构建的公司。但是我们从另一方面,我们也是一家很老的公司,因为我们是在2010年,我们公司的CEO雷涛他最先感觉到大数据Hadoop在这方面的一个发展潜力,所以我们从云基地孵化出来。在那个时代我们几乎是最早部署大规模的Hadoop,我们同时也是中关村大数据联盟的发起单位之一。也是像统计局等很多单位大数据合作企业,具体我不讲了。
我们讲三部曲,首先我们来谈一谈我们的品牌能力。从2012年开始和运营商合作,那时候我们首先要解决大规模部署,把一个开源的技术如何应用到企业级平台上。在那个时代,大家有不同的产品思路、产品策略,一部分人自己组建一支队伍,用开源的Hadoop技术一层层摞起来。另一部分公司在底层把一些开源的东西优化、封装,做成一个自己的产品。我们发现这两种方法都会面临着一个问题,就是开源技术蓬勃发展的势头和企业级应用的需求的矛盾,刚才汤总也在提,我们企业级用户如何使用一个开源的东西?我们当时就有一个新的思路,就是用一种大数据中间件的模式,在开源架构上来架构新的可靠的系统。
我们在金融系统已经部署了在金融系统里头的A类核心的大数据Hadoop集群,完全符合股份制银行对A类核心数据的要求。在平台方面我不详细介绍,简单讲一下,如果大家有兴趣,我们外头有一个展台,大家可以和我们的人员讨论。我们目前这个集群可以做异构集群的管理,包括底层用开源也好,过去有各种各样的Hadoop集群,我们可以用我们新的管理方式把它管理起来。我们不光是在集群管理,我们在应用层,往上甚至到模板层,我们都有我们自己的创新。特别是我们在大数据使用,我们叫模板层这个层面上,基本上已经和硅谷的公司在同步发展。
光有一个平台,大家有这个平台的处理能力,如何在使用平台上的数据,这是一个挑战。我们在和运营商合作过程中,直接面临着如何把数据用起来,在早期我们第一个项目只是看大规模的数源,一个用户用了手机,觉得数据不对,我们原来没法知道他流量用在哪了。后来通过我们对他系统的分析,可以知道他用了什么。但是这个数据大家都知道,这是一个金矿。刚才魏主任讲,如何去解析,如何知道他这个跑的是什么,内容是什么,如何知道他浏览了什么,这样我们做了一款叫数据魔方的产品。我们最开始解析了两千多个APP,现在已经发展到了六千多个主流的APP,这是滴滴打车的日志,如果我们仅仅看这堆日志的话,不知道它是什么,一大堆字符串。通过我们用机器学习的方法,我们发现每个字段的含义,有意义字段的含义,我们可以知道这个人他什么时候从哪到哪。包括大众点评,他去吃饭,我们知道他经常在哪几个饭馆活动,我们可以知道这些。这个就构成了一个类似叫黄页的东西,我们来把我们所看到的一大串看不懂的字符串翻译清楚。
这是我们已经做完的,但我们还会碰到一些新的问题。这些我们知道它是什么,它有它的标注好的地理位置,标注好的时间这些东西,还有一些东西我们不知道他在干什么,他读的是什么。我们经常讲,你在读一篇文章,那篇文章也在读你,所以我们为此就发展出一套自然语言处理的引擎。这套引擎就是我们讲的三部曲的第三部,我们从平台到数据的处理然后到人工智能的发展。人工智能可能大家都会想阿尔法狗,最早的人工智能,我自己以前小时候看的人工智能都是一个真正的机器人,一个真的跟我们一样的一个人。我们希望他长的跟我们一样的一个脑袋,里头跟我们一样的一个能思考东西的东西。
我们后来看到阿尔法狗,我们知道它可能是一堆机器,但是和我们在某一方面一样去想这个问题。但实际上从人工智能角度来说,它有不同的层次。我们不必一定要像人一样去读书,下围棋,或者和人一样去交谈,我们真正能去读懂他在读的什么东西,我们能用自然语言去处理。我们在用一些算法来做分析的时候,它本身也构成了一种智能。像早期我们坐飞机,所有人想飞机会有个翅膀扇一扇,但最后飞机是一个固定的东西。大家会说自然语言算法可能很早就有人在做,而且在各种各样的使用,我们有一个个别的。过去很多我见到的大部分都是我们讲的分磁,用磁频来处理,这个已经落后了,我们走在科技比较前列。因为我们自己有一个博士后流动站,我们可以知道一篇文章和另外一篇文章是相似的,比如这篇文章里头主要讲梅西,另外一篇文章在讲西甲的和他在竞争的一支球队,我们认为他也是在谈一个相似的事情,是语义空间的一个算法。这个我们可以做很多内容,我们可以做文本的分类,这个文本分类,我们现在外头有个演示系统,还是一个通用的分类,可以把文章分成是军事的、经济的、政治的,我们还可以做更专业的分类。我们给路透社做过,上市公司公告的分类,到底是IPO的公告还是重组的公告。这些东西原本是需要专业人士来看的,因为他不仅仅是看一两条规则,完全是需要专业知识来分析。而我们用机器学习的方法,就能够大致准确,大概我们做到接近90%的准确率,大致准确的一个分类。还有基于我个人的爱好,好比古文的断句,也是类似用机器学习的方法做分类。
还可以做主题的发现,新词的发现,新词的发现也很重要。我们要构建一个新的领域,好比是一个很专业的,类似我们做的金融领域的一个词语库。过去是用人手工去做,现在机器的方法做这种新词的发现。我们具体的应用,我们在实践当中,我们如何发现某一类人,我们给宜信做了一个项目,目标人群就是马农,我们要知道谁是马农,如何判断一个人是马农,不会贴一个标签我是马农,或者知道他职业是干什么的,我们通过他的阅读习惯,他浏览的内容,我们来判断他是不是马农。
我们再往下走,现在我们构建的数据库叫关系型数据库。我80年代末开始进入IT的时候,第一个工作就是讲关系型数据库。但是我们今天发现所谓的关系型数据库恰恰最不能反映关系,我们通常看到的一张张表,我们通常看到的习惯性的结构性的这些东西,真正你要表达出好比一个人群之间互相的联系,我给谁打过电话,构成所谓的关系,通过过去的关系型数据库是非常痛苦的。我们经常讲一个事情,就是所谓几度查询的问题。在前不久,浙江那边发生循环骗贷,几个人做一个循环担保,大家一起卷钱跑了。在过去的关系型数据库里头,我们很难发现这种循环的担保圈。今天我们用什么新的手段?就是复杂网络。复杂网络,这是我们一个新的产品,最大的应用就是给人行征信中心做关联关系的分析,企业间的借贷关系,企业间的担保关系,企业的股东、高管他们和其他公司的这些关系。我们不管他这个人,这个企业的大小,我们不管这些属性,我们只关心他们之间的关系。这个也用在一些互联网金融,我们刚刚做的另一个项目,是一个小额贷的公司。最热的一个词是征信,是建立在熟人关系基础之上的。你为什么有信用?熟人关系圈认为你有信用。如何构建一个整体的信用体系?用传统的数据库是完全做不到的,所以我们给他用了复杂网络这个拓扑关系。
另外就是一旦用了这种关系型数据库,大家会发现很多事情变得算起来很容易。这是另外一个关系案例,每个人网上有各种各样的身份,我们如何把人和人的联系,虚拟世界人和人的关系构建在一起,这是一个非常庞大的体系,一旦建立起来,你可以走一度二度三度四度。我们在一个很大的拓扑里,两千多个节点,我们查一个四度五度的关系图谱,我们只是秒亿级的运算,过去做两周三周,完全不可接受。
我们再往下走,就是我们叫数据挖掘平台,实际上就是一个真正的算法平台。这个平台的出现是我们长期的一个实践的结果,因为我们自己有不同的团队,有算法团队,有产品团队,有写代码的,有做科学研究的。我们发现这些人要打通在一起,是一个蛮挑战的事情。特别是算法平台的人作出一个算法,如何把它并行化,这些也都是挑战。我们做了一个平台,我们让希望做算法的人很容易一步一步去实现他所设想的这些东西。
这个算法目前在第一版包括了这些通常常用的东西,当然也包括现在比较时髦的机器学习。这个平台,今天时间短,没法展开去讲。这个平台有一个极大的优势,我们把很多我们最佳实践放在其中。当你对某一个算法不是很熟悉的时候,你可以选择一个很初级的内容。你可能只需要填几个参数,你就可以构建一个算法。当你有一个比较高级能力的时候,你可以有四十几个参数或者一百多个参数去选择,去填。再高级一点,你可以把它放到共享里面自己去编。我们同时支持多种语言,最流行的算法语言,你都可以自动产生这些代码。这个就是我们在整个大数据这一块,我们从平台到数据到算法暂时给大家汇报的一个结果。谢谢大家!