?!DOCTYPE html>
“当真相在穿鞋的时候,谎言已经跑遍全城。”现代社?x),虚假新闻、图片、视频,甚至商品{借助|络渠道q速传播。近日公布的《中老年Z|状况及(qing)风险|络调查报告》显C,q六成中老年N受过|络谣言的危実?br />
Z常说“流a止于”,要想不被|上的流a和谣a盅惑、伤宻I首先需要对其进行科学甄别,而时下h工智能正在尝试担任这一角色。那么,在打假一UAI技术如何做到去伪存真?q样的“本领”可应用在哪些领域?
量资讯发布Q传l识谣模式受?/strong>
“虚假信息的产生主要有两cd机:(x)一cL利益驱动Q?018q发表于《科学》的研究发现Q要辑ֈ相同的传播深度,虚假信息的速度是正怿息的20倍;另一cL政治驱动Q在现有互联|经中Q高效传播代表着高额l济价|人工技术会(x)被不法分子用来左叛_众对于政ȝ认知和判断,从而控制舆论,威胁政治安全。研I显C,2016q美国ȝ大选期_(d)受访选民q_每h每天接触?虚假新闅R虚假新闻被认ؓ(f)影响?016q美国大选和英国脱欧的投结果。”中U院计算所副研I员、博士生导师曹娟在日前北京D办的Women Who Code讲上介l?br />
Z(jin)减少虚假信息Q有必要对网l新闻进行认证。但大型资讯聚合cd^台每天的新闻发布量一般在50万条以上Q显然完全依靠h工认证是不现实的Q面向公众,亟待建立高效的AI识谣q_?br />
杜克大学新闻研究中心(j)的调查显C:(x)截至2018q?月,全球共有149个正在活跃运营的事实核查cLd业项目,其中北美和欧z?4个、亚z?个。而在一些国外社交^CQ已有自动化可信度评估插件来昄信息的可信度?br />
据了(jin)解,目前国内已有的主要识谣、辟谣^台基本还是依靠专家识别模式,其存在一定的问题Q发现线索主要依赖用户D报,数量有限Q时效性不强,往往是事件已造成负面影响才“后知后觉”;此外Q新闻认证速度有待提高。Facebookl计Q依靠专家辟谣的认证模式q_滞后3天,错失辟谣最x期;覆盖cd受限Q专家只能在自n擅长的领域辟谣,领域专家库的多样性决定了(jin)人工辟谣q_的能力上限?br />
为提高识谣效率,目前中科院计机研究所、阿里、腾讯等多家企业和机构已l开展了(jin)人工识谣工作。曹娟带领团队从2013q开始致力于开展基于h工智能技术的虚假信息(g)研IӞ她介l,AI识谣公众q_可自动及(qing)时发现可疑线索ƈq行认证Q大大降低谣a可能带来的危宻I通过机器学习(fn)法辅助人工审核Q仅需1分钟卌对疑Da事g发出预警Q基于数据驱动的Ҏ(gu)Q^台还可不断挖掘出不同cd谣言的特性,实现对各U谣a地自动识别?br />
不过Q需要指出的是,“虚假信息识别是一个高度复杂的问题Q一斚w是虚假的定义q不明确Q需要不定性徏模;另一斚w是标注很困难Q需要小h学习(fn)Ҏ(gu)。目前,机器学习(fn)法的准率不以完全取代人类Q但已能够辅助hcL快更好地审核新闻。”曹娟表C。正如扎克伯格所_(d)“想要完全依靠AI审核内容Q可能尚需5?0q时间”?br />
多模态、多层次、多角度揪出假新?/strong>
“虚假新d往从选题、文字表qͼ到配N呈现?gu)强煽动性:(x)一般选题集中于社?x)热?gu)争议点;文字描述中情感激烈;配图h视觉冲击力等。”曹娟剖析道?br />
曹娟介绍Q目前,中科院计所开发的辟谣q_已积累数万条假新M息,累计认证数十万次。通过q_U篏的数据,目前可从新闻质量的角度把杜撰的新L本大致分Zc:(x)一完全杜撰Q往往是在真实存在的实体上~造情节;二半真半假,可能描述的前半段是真Q后半段展开不可靠的惛_Q或者一部分是真Q但在关键情节上La(b)加醋Q三旧闻C、移花接木,事g本n可能存在Q但发布者故意模p化甚至改原事件中的时间、地点,让h误以Z情刚刚发生在当地被?br />
除去文字造假Q图片视频造假也越来越多。“我们将虚假新闻配图分ؓ(f)复用的过时图片、能引v歧义的误导性图片及(qing)改囄。假新闻通常呈现出新闻要素缺失、图像质量低、内容包含色情敏感广告等低俗信息Q以?qing)图文不匚w{特炏V例如,有些假新M的配图会(x)出现满屏弥O冲天大火、公路凹h坑、被弃男童在垃圾废墟前嚎啕等画面。”曹娟描q道Q“谣a更易形成病毒式扩散的势Q而真实新ȝ扩散速度和爆发度要温和许多。?br />
“从核心(j)技术上QAI甄别谣言依赖于‘三多’。”曹娟说Q一是多模态数据,谣言从发布、传播到被辟谣的生命周期中,可能?x)伴随生文字、图片、视频、传播网l、参与用户属性等多种模态的数据Q各模态数据均能不同程度指CaQ例如谣a文字的情感們、图片的视觉冲击力、传播网l的l构属性等Q但没有哪种模态的数据拥有独立完全的谣a指示能力Q所以要可能获取不同模态的数据?br />
二是多层ơ表C,深度学习(fn)技术有强大的表C学?fn)能力,l过经|络l构和融合机制的设计QAI模型可以在面对众多意义、Ş式、结构都不同的模态数据时Q综合不同层ơ数据,自动扑և最有区分能力的表示l合Qƈ待甄别文章对应的文字、图片、传播网l等融合投射到特征空间中?br />
三是多角度判断,AI可以从单一斚wQ如内容、用戗传播)(j)l出可信度,也可以全面观察,l出l合所有信息的可信度,?qing)时帮助Z“揪出”可信度不高的信息?br />
l合专家l验辨别虚假商品
曹娟介绍Q目前除?jin)鉴别虚假新闅R虚假图片,AI虚假(g)技术还可以应用在对虚假商品的检上Q如Z视觉信息技术鉴定一些高商品的真伪?br />
2017q_(d)国U约大学成功研发Z套假货鉴定系lEntrupyQ用户利用配有微型相机的手持讑֤寚w定物品进行拍摄,q个pȝ利用机器学习(fn)法Q分析图像,最l确定品的真实性。其联合创始Zl,除了(jin)表面是屈光的ȝ和瓷器不能检外Q这Ҏ(gu)术用光学分析可试汽R雉件、手机、充?sh)器、x、夹克和鞋子Q甚臛_沏V?br />
q日Q中国科学院计算技术研I所与国内某奢侈品电(sh)商宣布共合实验室Q探索智能鉴定和内容分发、在UK定商品业务等内容。那么,AI如何对商品,如包、鞋辨别真假Q在识别假货斚wQAI可替代专家吗Q?br />
“与别假货相比,在强度、效率等斚wQAI有着H出表现。例如,一般识别假LV包的专家Q工作一天只能鉴定五六个包,而AI{查一个包仅需几分钟。实际操作中QAI先在大量{选中发现异常情况Q报警示错,再由专家来做q一步甄别。即以AI技术打假ؓ(f)丅R以人工审核QAIq不能替代专家。”曹娟说?br />
曹娟表示Q虚假商品检可形式化ؓ(f)异常(g)问题。正品样本往往量很大,但仿品样本量很小Q甚至ؓ(f)零。这时候,只能对大量正品进行徏模表C,然后对待(g)样本,要看它与正品相比是否存在异常。但单纯的数据学?fn)是困难的,鉴别中还要结合鉴定专家的l验知识Q以引导模型学到快速定位异常区域的能力Q同Ӟ模型通过数据驱动发现的视觉规律,也会(x)反馈l专家。因此,q是一个专家和模型怺学习(fn)、P代提高的q程?