新型(xíng)冠状(zhuàng)病毒肺(fèi)炎疫情爆发以来,相关话题热(rè)度持续高(gāo)涨。如何在纷繁芜杂的信息中(zhōng)理(lǐ)清头绪?为便于疫情防(fáng)控和宣传(chuán)工作的开展,近日,清华大学人工智能研究院、RealAI共(gòng)同研发(fā)推出“新冠(guàn)肺(fèi)炎疫(yì)情AI话题分析(xī)平台(tái)”,帮(bāng)助相关部门和(hé)公众更好(hǎo)地了(le)解疫情实时动态。
据(jù)介绍(shào),该平台通过对多(duō)渠道海(hǎi)量媒(méi)体信息进行自动抓取采集(jí)、识别分析,解决了传统(tǒng)信(xìn)息检(jiǎn)索过程中因消(xiāo)息源(yuán)头(tóu)繁杂(zá)、消息过多、检索意图不明确而产生(shēng)的(de)困扰。同时(shí),基于大数据分析和AI建(jiàn)模,自动识别出(chū)近(jìn)期热点话题、新闻追(zhuī)踪和话题导(dǎo)向、地区关(guān)注度变化,第一时间展示全网话题最新动(dòng)态,满(mǎn)足用户对疫(yì)情舆情监测的需求(qiú)。
在底层算法支持上(shàng),该平台(tái)基于(yú)清华大学人工智能研究院、计算机(jī)系推出的WarpLDA主题提取算法研发(fā)。基于蒙特卡洛(luò)EM算法,WarpLDA在(zài)访(fǎng)存(cún)效率(lǜ)、并行度方面相比传统(tǒng)的Gibbs采样算法更有优势,可用(yòng)于上亿级别文(wén)本的(de)主题提取。该成果最早首(shǒu)发(fā)于数据库(kù)领域顶级国际(jì)学术会议VLDB上。
RealAI首席执行官田天(tiān)认为,不(bú)同于2003年非典等(děng)重大公共卫生(shēng)突发(fā)事件,互联网成为这次疫情主要的“信息源”平(píng)台,传播模(mó)式(shì)更(gèng)是基于人手一(yī)机的“自媒体”,信(xìn)息流(liú)的爆发不仅降低了大众获取信息的“信噪比”,更是滋(zī)生(shēng)了(le)不(bú)同程度的谣言。可以说(shuō),传播速度之快、话题数量之大、更新变化之迅速都对疫情信(xìn)息的有效传达提出了(le)更高的(de)要求。
“在这场没有硝烟的战争中,我们每个人、每个组(zǔ)织都(dōu)无法独善其身。”田(tián)天表示,RealAI希望以自(zì)身算法、优势技术为依托,从内容侧打造防(fáng)疫战线(xiàn),发挥信息战“疫”价(jià)值,为抗击疫情(qíng)贡献力所能及(jí)的力量(liàng)。