海量资料淘金潮—从两岸媒体看大数据革新◆文/郭玫君(联合报记者)《交流杂志105年2月号第145期(历史资料)》
- 更新日期:112-07-12
大数据(Big Data)浪潮正掀起全面革新,当全世界、各产业都在追赶大数据,抢著从中淘金,两岸媒体界也从中发展出不同经验。台湾媒体的大数据应用未成气候,有待急起直追大;大陆已将大数据当成国家竞争性资源,其传媒的大数据发展脚步也快得多,但诸多案例用以维持「和谐」社会气氛,「讲好中国故事」,仍具浓厚官方色彩。 海量资料时代,人人都说得一口大数据,大数据究竟为何物?其实大数据不是新东西,其精髓不在「大」而在分析,如何从网路留下的「数据足迹」中挖掘潜在价值,才是大数据的意义。 从一组名为「互联网上一天」数据可得知,一天当中,互联网上产生的全部内容可刻满一‧六八亿张DVD;发出的邮件有两千九百四十亿封之多,相当于美国两年的纸质信件数量;发出的社群贴文达两百万则,相当于「时代」杂志七百七十年的文字量。 惊人的资料量如同金矿,但该如何淘金?大陆媒体数年前开始小范围应用数据做出数位图表新闻,从二○一二年网易新闻的「数独」专栏发布首条新闻「最适合儿童成长的国家」,而后其他入口网站新浪「图文天下」、搜狐「数位之道」等相继成立;京华时报、钱江晚报和南方都市报等纸媒也规划在版面刊载数据新闻的视觉化作品。
从大数据看春运 迷宫中感受全局
但要说真正意义上的大数据新闻应用,就得提央视的案例。二○一四年被视为大陆的大数据新闻元年,因为当年春节开始,央视与大数据公司合作推出一系列电视大数据新闻,「『据』说春运」、「两会大数据」是经典案例。 被称为「地表上最大的人口移动」的大陆春运,新闻年年报,该如何创新?央视结合百度大数据,以动态迁徙图和静态统计图等方式,让读者及时掌握全大陆春运流动的趋势。人群从哪里到哪里,哪些路线最热门?透过这张百度迁徙图,人们首度可「在迷宫中感受全局」,真正看见春运全貌。 大数据中还能挖掘出传统新闻未能发现的亮点,如父母赶到子女打工城市过年的「逆向过年」现象,或「丈母娘的礼物」成热搜词这类有趣角度的报导。因此「『据』说春运」一推出,随即引起大陆各家媒体,特别是新媒体广泛转载和推荐,吸引了五亿多网友的目光。 「『据』说春运」让央视初尝甜头,随后又推出一系列大数据电视新闻节目,而最让央视津津乐道的,就是他们如何将较为乏味的全国「两会」新闻透过大数据变有趣。
大陆全国两会 印尼最关注
大陆每年初春召开的两会,大陆媒体惯以「全球高度关注」形容;但「全球」指的是谁?到底谁最关注?若有读者这么一问,恐怕难倒记者。但二○一四年央视「新闻联播」却透过大数据给了解答。 结果出乎意料,原来印尼高居榜首,美国名列第四,大陆民众相对陌生的秘鲁竟排名第七。进一步解读,大陆每年从秘鲁进口鳄梨,这是当地人关注两会的原因。换言之,大陆发展成败越攸关哪国的利益,哪国就越关心两会;当大陆能透过大数据精确读懂世界怎么看两会,就有助于「讲好中国故事」。 如何让两会题材更贴近普通百姓?当大陆国务院总理李克强的政府工作报告谈到互联网安全时,央视与合作的大数据团队思索出一个画像,呈现「什么人上网最容易上当受骗」。经大数据分析所描绘出的人物画像特质是:十六岁至廿五岁、九○后、广东、男性、网路兼职、网路购物、网路游戏、每天上午十点到十二点最容易上当受骗。 有趣的是,同一天广东中山大学官方微博发了一个警示:「本校几位男生因为上网受骗,少的四至五万,多的四十至五十万。」此案例正好吻合大数据分析后的人物特质。
陆媒大数据 负责「和谐」舆论
大陆媒体的大数据应用推陈出新,除传统主流媒体与百度、尼尔森、亿赞普、腾讯等合作的模式,有些已发展出新媒体单位,成立自有的大数据中心。但有时大数据用于精准管控舆情发展,维持「和谐」社会气氛,仍具浓厚大陆特色。 湖北日报新媒体集团近期全力发展大数据中心,该中心主任傅文仁形容,「大数据是面条不是米饭,米饭是一颗颗、讯息单一,大数据则是从源源不断的内容中打碎提炼而出。」大数据环境下,资料不是使用了一次效果就递减,反而越使用越有价值。 在大陆,透过大数据分析读者每天阅读的文章,得知其爱好、政治取向,进而推荐文章,已发展出成熟模式。然而湖北日报大数据中心从中提炼出的「面条」,却不单单是一般媒体追求的点阅率,而是专攻「形象管理」,不脱官方色彩。 「政治人物在网路上容易被贴标签,放大错误。」傅文仁说,借由大数据进行网路舆情管理,如发布政治人物讲话与文件前,事先预测网友舆论可能导向;若可能偏离原定目标,则在发布前调整、减缓落差,以达成社会和谐的目标。不过他否认这样的作法,是单纯管制或删除讯息。 有无操作成功的案例?有。他举了「东方之星」沉船案件为例,指大数据在当中发挥了作用,包括决定哪些内容能报导、哪些能满足网友的知情权。傅文仁说,若讯息管理得当,可以避免社会过度受到负面情绪影响。 微妙的是,在「东方之星」事件中,由于官媒歌颂救援行动,试图引导舆论,引发民间强烈反弹。当时湖北日报也因很早就将事因定调为「大风大雨」,将事故淡化为天灾所致,遭外界质疑。此被视为「成功」的案例,似乎和网路舆情认知有出入,倒也能一窥大陆特色下的媒体大数据应用。
从大数据找趋势 从趋势创造议题
台湾媒体在大数据应用发展尚不够成熟,比起国外稍显落后,也较大陆脚步缓慢,但少了官媒包袱,大数据新闻内容更具创意。 台湾最大自媒体「痞客邦」共同创办人暨技术长朱皇韦表示,网路媒体兴起带动内容多元化,数据变得更加丰富,痞客邦十多年来累积大量的数据资料,每天不重复的拜访人数达七百七十万,达台湾一半以上上网人口,累积五亿篇文章,让痞客邦开始思索,如何利用这些资源「从大数据寻找趋势,从趋势创造议题」。 以「雷神巧克力」为例,之所以在台湾窜红,一开始从部落客分享开箱文,进而到社群疯狂转载,造成旅日民众大量采购,最终结果是媒体报导,让巧克力更难买。 如何从网路社群积累的社会脉动中创造议题?痞客邦成立一个专门观测大数据的部门PIXinsight,将数据应用于新闻议题、医疗、金融及电信等。以新闻为例,痞客邦曾跟远见杂志合作从大数据去分析选校议题,结果打破过去名校、就业考量的迷思,发现兴趣、个性跟离家近(生活支出考量)才是三大选校考量。 有别于传统选校调查报导,它以大数据分析网友们在脸书、PTT、痞客邦等主要网站的创作,如发表文章、分享按赞、浏览、搜寻等行为,找出「网路声量最大」(讨论度最高)的校系、该校代表关键字(即最常与该校名出现在同一篇文章中的字眼)。结果发现,「成大」夺得网路声量冠军,而网路上与成大相关度最高的代表字是「研究所」。 传统主流媒体「联合报」近年朝数位化转型,旗下成立新媒体部,设有大数据研究单位,以科学方法探掘社群正热议的话题,作为编辑室即时做决定、找新闻亮点的重要依据。 除以大数据辅助决策,联合报也做出不少创新的数据新闻,让读者在寻常人事物中发现数据迷人处。如金曲奖前夕,联合报新媒体中心特别企画「数据解读作词之王|林夕」,用数据解析林夕的创作人生。有不少脍炙人口经典作品的林夕,原来不只帮大牌歌手写歌,与他曾合作的歌手多达六百七十位,以杨千嬅一○三首最多,其次是古巨基一○二首、黎明九十二首。
百度大数据 改写角色命运
除新闻媒体,影视广电媒体生态也因大数据出现改革,破除传统收视率迷思。湖南卫视「不一样的美男子」是大陆首部拥抱大数据、边拍边播的电视剧。透过百度大数据,洞察观众喜好,为观众喜欢的角色增加剧情,甚至决定结局走向,真正做到与观众互动。 大陆许多机构结合网路数据预测收视率等,如大陆的尼尔森联网「电视节目大数据选题研究」,央视索福瑞和新浪微博去年也推出「微博电视指数」。如尼尔森联网为江苏卫视的王牌节目「非诚勿扰」提供大数据选题研究服务,挖掘出观众对节目的真实态度。 两岸媒体大数据应用势不可挡,但都在摸索模式。大陆虽有诸多推陈出新尝试,但部分粗糙内容也为人诟病。二○一五年底在台北举行的「大数据时代下的两岸新闻趋势及创新应用」座谈会中,两岸媒体人热议大数据新闻趋势。 奥美互动行销公司董事总经理张志浩指出,巴黎爆炸后,一名插画家画的图几小时内立刻在脸书洗版,若报社内能有一个即时操作的组织,以阅读者习惯的方式立即回应,力量可能比写一篇文章更有效。 朱皇韦说,新闻媒体若能结合大数据,更精确掌控事件发生的前因跟后果,进而追踪报导,可产生更优质的媒体内容。中央广播电台总台长赖祥蔚则指出,大数据分析日后可以预测未来事件发生,恐冲击新闻媒体,新闻是否会变为提供读者喜爱看的新闻,忽略新闻报导伦理,值得关注。