来源:2019-04-29 | 人围观
在信息爆炸的大数据时代,信息的增长速度远远超过了人们处理信息和分辨信息的速度,直接导致了很多预测和决策的失败,并且我们为之付出了巨大的代价。
白酒股4天内蒸发447亿元市值;重庆啤酒“疫苗血案”吞噬市值289亿;瘦肉精事件卷走170亿财富,这些“黑天鹅”事件的发生在很大程度上应该归咎于糟糕的预测或者错误的决策,预测者和决策者们被众多信息中的噪声干扰,延迟了本可以用来止损的时间。
信息越多,问题越多。尤其是重要的商业信息,众所周知,股价最易受舆论影响,投融资对市场风口的把握起着导向性的作用,在茫茫的信息流里识别出真正有用的信息,并让这些信息为人们服务,是大数据时代的必然趋势。
企查查,以全国企业大数据为支撑,方便用户随时随地在移动端查询企业工商信息,使用分布式爬虫每天采集更新300万舆情数据,基于AI舆情聚合的技术,每天自动发现约400个热点舆情,经大数据去重筛掉重复的50万多条舆情,保证信息的时效性、准确性、唯一性,分层级快速整合碎片化的企业新闻信息,让用户获取资讯更高效。
第一层:识别情感色彩,速判。企查查借助NLP(自然语言处理)技术,使用了200万的标注数据,来进行模型训练,为保证模型的稳定性,使用了5种不同的算法,分别对同一篇文章进行情感预测,最终将结果进行合并,给出情感倾向的可能性,标注新闻舆情的情感色彩为正面、中立、负面。举个例子,你想等乐视翻盘?就只看乐视网的积极消息。
第二层:抓取关键词,速读。几个词就能知道新闻的主旨,企查查使用了目前业界比较流行的TF-IDF算法和Textrank算法。其中,TF-IDF算法的运用,企查查抓取企业新闻数据,重新训练了IDF权重词表。并且借助bigram和trigram的算法,对已提取的关键词进行优化,更能精准的表示新闻陈述的要点。
第三层:信息去重,分类标签个性化定制舆情方向。为了缩短过滤垃圾内容的时间,企查查采用了Simhash和余弦相似度算法,提高了数据检索和对比的速度,并使用文本的向量夹角来判断文本的相似度,在第一步的基础上进一步进行对比去重。同时,细分了违法、高管、经营、荣誉等大类目,旗下还有各类子科目,精准筛选你所关心的公司信息,提供定制化内容推送服务。
第四层:挖掘高价值信息,获取商业情报。企查查会在企业的招股书、年报等pdf文件中,提取出相关的信息,并解析出企业的供应商、客户等信息。以某公司为例,近5年的年报公示的供应商及客户都会按年统计呈现,方便用户了解公司经营实力,预判合作风险。
掌握信息,就等于掌握了财富,这是整个时代的特点,因此,从多如牛毛的信息中,快速获取至关重要的,是走向成功的密钥。借AI的助力,人们获取信息变得更方便,更及时,何乐而不为?
据悉,在刚落下帷幕的国家发改委组织的全国信用APP观摩活动中,企查查获得了各省代表、专家们的青睐,荣获二等奖,同时还获得了示范推广项目的荣誉。