每经记者 王嘉琦 实习记者 宋欣悦 每经剪辑 兰素英
2024年11月14日,“2024智媒体50东谈主成齐会议暨每经20周年财经媒体峰会”在成齐举行。会上,《逐日经济新闻大模子年度评测敷陈》雅致发布。
6月25日,《逐日经济新闻大模子评测敷陈》第一期发布,对15款市面主流大模子在“财经新闻标题创作”“微博新闻写稿”“著作差错校对”“财务数据琢磨与分析”四个新闻采编利用场景的才调进行了评测。
主理方供图9月6日,《逐日经济新闻大模子评测敷陈》第二期发布,重心考试大模子在“金融数学琢磨”“商务文本翻译”“财经新闻阅读”三个新闻采编利用场景的才调。
与前两期评测相似,《逐日经济新闻大模子年度评测敷陈》连续以大模子在新闻采编场景的利用才调为评测场合,为了更精确对接采编东谈主员的践诺需求,本次评测以“采写编审和短视频创作的新闻出产全经由”为场景,包括大模子想象采访提纲、撰写新闻稿件、校对稿件差错、提取稿件标题和改写短视频文本五个细分场景。通过大模子在新闻出产全经由的介入,评测出“谁是新闻出产全经由的最优秀大模子”,用直不雅的评测终局,对采编东谈主员在使命中经受相宜的大模子器具提供实战参考。
12款国内大模子参与评测 各家模子展现出不同上风
本次评测开发的五个细分利用场景具体为:1.想象采访提纲:旨在考试大模子能否匡助记者拟定采访提纲,支持记者采访使命;2.撰写新闻稿件:旨在考试大模子围绕既定的多份材料,能否创作一篇新闻稿件;3.校对稿件差错:旨在考试大模子能否检讨出新闻稿件中的错别字,语法、数字、标点标记等差错;4.提取稿件标题:旨在考试大模子能否把柄稿件内容,提取新闻标题,相当是制作相宜在微信等新媒体平台传播的新媒身形度标题;5.改写短视频文本:旨在考试大模子能否把柄一篇翰墨新闻稿件,改写成相宜短视频发布的案牍。
每经大模子评测小组为五个细分场景制定了对应的评价维度和评分打算。逐日经济新闻10余名首席、高等、资深记者剪辑把柄评价维度和评分打算,对各款大模子在五个细分场景中的推崇进行评分,汇总各场景得分,最终得到参评大模子总分。
需要指出的是,本期评测是通过各款大模子的API端口,并在默许温度下完成。与公众用户使用的大模子C端对话器具存在各别。评测终局对用户在具体场景中选拔合适的大模子器具,依然具有蹙迫参考价值。
本期评测均在“雨燕智宣AI创作+”测试台上进行,一共有12款国内大模子参与。评测期间为2024年10月18日,因此参评大模子均为甘休10月18日的最新版块。
评测终局清楚,腾讯混元hunyuan-turbo以379.53的总分位居榜首,紧随自后的是智谱GLM-4-Plus赢得368.6分,字节 跳 动 doubao- pro- 32k(240828版块)赢得363分。
在五个细分场景方面,各家模子展现出不同的上风。
在想象采访提纲场景中,腾讯混元hunyuan-turbo与昆仑万维(维权)天工SkyChat-3.0两款模子均取得了93.33分的佳绩,并排第一。在撰写新闻稿件场景中,智谱GLM-4-Plus以98分的高分拔得头筹。在校对稿件差错场景中,智谱GLM-4-Plus以60分的收获位居首位。在提取稿件标题方面,深度求索DeepSeekV2.5模子以55.2分的收获最初其他模子。在改写短视频文本场景中,腾讯混元hunyuan-turbo再次展现其执意实力,以95分的收获位列第一。
天下上还莫得“AI记者” 需完善审核与内容把关
论断一:暂无一款大模子能高质料完成采编全经由使命
甘休咫尺,逐日经济新闻一共推出3期大模子评测敷陈,覆盖12项新闻采编利用场景,从终局来看,莫得一款大模子能在悉数场景中均排行前方。
正如东谈主类相似,各款大模子的所长与短板各不换取。比如,有的大模子擅长财务数据琢磨,但在新闻标题提取中却排行末尾;有的大模子擅长英译汉,却在汉译英方面才调平平。
在新闻出产的关节要领,如本期评测中的“撰写新闻稿件”“校对稿件差错”“提取新闻标题”、第一期评测中的“财务数据琢磨与分析”和第二期评测中的“金融数学琢磨”等利用场景,多数大模子生成终局差错频出,要保证新闻稿件高质料、无差错,还必须由东谈主工审核、把关。
咫尺市面上还莫得一款大模子概况高质料、全经由完成新闻采编场景的悉数使命,换句话说,天下上还莫得“AI记者”。
论断二:大模子“幻觉”未解,畸形更覆盖
尽管各款大模子依然屡次迭代升级,但依然管理不了“一册肃肃地瞎掰八谈”的幻觉问题。
最初的大模子“幻觉”问题比较彰着。跟着家具不竭迭代,大模子生成文践诺量渐渐提高,但文本中的畸形也越发覆盖。比如,在“撰写新闻稿件”场景中,大模子会在不起眼处改换东谈主物的职位或编造事件发生的期间。举例在本期评测中,部分大模子将9月24日“星巴克咖啡公司告示休养其中国区教授层结构”的期间,误写成9月30日。再比如在第二期评测“金融数学琢磨”场景中,即就是得分第一的大模子也会在个别题目中给出正确的琢磨公式,却依然得出畸形的谜底。
关于一篇高质料新闻稿件来说,上述问题齐可能是“致命”的差错。咫尺,AI生成内容依然大畛域出当今互联网中。这就条目新闻媒体要进一步完善新闻内容信得过性审核机制,更需要加强内容把关。
咫尺仍需东谈主工介入和打磨 部分场景可达成采编AI化
论断三:“冷面”的大模子难判断新闻价值
阅读一篇稿件,挖掘出最蹙迫的新闻点,然后提取和制作标题,在这方面,大模子与教会丰富的剪辑比较差距不小。
在本期评测的“提取稿件标题”场景中,大模子得分渊博偏低。其生成的标题多显得中规中矩。举例大模子提取的《“星巴克中国新篇章:80后刘文娟接任CEO,引颈咖啡巨头迎挑战”》《“星巴克中国换帅:80后刘文娟接棒CEO,直面市集挑战与变革”》等标题。
另外,评测中发现,大模子提取的新闻标题,通常充斥着一些“魁伟上”的玄虚宗旨词汇,无法挖掘著作中最蹙迫的新闻点和有价值的信息,翰墨虚浮,很难诱惑读者的眼球。
此外,在“撰写新闻稿件”场景中,大模子生成的文本较为生硬,“机器思绪”较彰着,穷乏样子和个性化抒发。
从现阶段来看,大模子在阅读著作方面,难以具备对一篇稿件新闻点的准确和深头绪把抓,容易停留在浅头绪一语气。因此,新闻点和新闻价值的判断,包括采写有温度、有故事、多情面味的平安稿件,仍然离不开记者、剪辑的东谈主工介入和精心打磨。
论断四:不同采编场景选拔最相宜的大模子
这三期大模子评测的场景基本不错分为支持性场景(如财经新闻阅读、文本翻译、想象采访提纲等)和关节性场景(如撰写新闻稿件、校对稿件差错、提取新闻标题等)。
三期评测终局标明,绝大部分大模子在想象采访提纲、改写短视频案牍、英汉翻译、著作阅读以及微博新闻写稿等支持性场景中渊博推崇细致。举例,“改写短视频案牍”场景中,悉数参与评测的12款大模子均取得超越80分的收获;“想象采访提纲”场景中,有8款大模子的得分高于80分。在第二期评测的“商务本文翻译”场景中,13款大模子得分齐高于80分,在“财经新闻阅读”场景中,13款大模子得分高于70分。
而在撰写新闻稿件、校对稿件差错、提取新闻标题等新闻出产关节性场景的才调则彰着不及。比如,在“校对稿件差错”场景中,仅一款大模子得分达到60分。在“提取新闻标题”场景中,莫得一款大模子得分达到60分。
因此,记者、剪辑不错把柄采编使命的不同要领、不同场景,选拔最相宜的大模子,让部分场景达成采编使命AI化,提高使命效果。
连续探索大模子无穷可能 古道邀请您加入评测名堂
论断五:新闻媒体主导,打造垂直领域的“AI记者”
对比这三期大模子评测终局不难发现,国内大模子通过不竭迭代,才调稳步提高。同期,各家大模子之间的差距也在冉冉收缩,每个模子齐展现出独到的上风。这些大模子齐属于通用大模子,并非为新闻媒体、采编使命量身定制。
酿成大模子“幻觉”问题严重的一大原因,在于教师文本和数据质料不高,其中包含不少信息畸形。而新闻使命瞄准确性条目极高。这一短板平直限度了大模子在新闻领域的利用。磋议词,新闻媒体在永久的新闻报谈中依然积贮的大宗高质料新闻稿件和数据,适值为研发相宜新闻采编使命的大模子器具提供了先天不足的上风。
因此,自主教师和主导研发大模子器具变得尤为蹙迫,借此,新闻媒体不仅概况最大限度地确保大模子教师数据的质料和生成逻辑的准确性,还能保证大模子生成内容的可控性,使其更好方单合媒体本人的属性和性情。
在研发要领上,不错将采编全经由拆分红数十个要领,如采访、翻译、稿件写稿、提取节录和校对差错等。把柄各要领的具体使命场合、要领和条目,对大模子进行专项教师,以形成一系列单任务或垂类AI器具。最终,将这些单任务AI器具打包网罗,则不错打造出一整套新闻采编AI器具。
接下来,“逐日经济新闻大模子评测小组”将连续真切探索大模子的无穷可能,从践诺利用场景开赴,对各个大模子进行全场合评测,并如期推出专科敷陈,带来最前沿的瞻念察和发现。
在此,咱们古道地邀请您加入评测名堂。如若您是研发企业,思要展示自家大模子的实力,与其他大模子进行比拼,请将参评大模子的详备信息发送至咱们的邮箱:damoxing@nbd.com.cn。如若您是大模子的使用者,请告诉咱们您但愿在哪些场景中使用大模子,或者但愿咱们测试大模子的哪些才调。请掀开逐日经济新闻App,在“个东谈主中心”——“意见反映”栏中留住您的思法和需求。
海量资讯、精确解读,尽在新浪财经APP职守剪辑:李桐