云雀

媒体人广告人达人最适合哪个AI11个大模

发布时间:2023/10/7 13:18:24   
北京白癜风到哪家医院 https://yyk.99.com.cn/fengtai/68389/jianjie.html

编辑/James

“都说AI好,一用急跺脚。”

这是娱乐资本论·视智未来在第一次做大语言模型文本应用能力测试时,写下的第一句话。

当时,对于不少从业者而言,AI大模型的重点不是能不能做顺口溜或回答哲学问题,而是在于AI是否能够在实际工作中发挥作用,提升效率。时至今日,这一基本需求仍未改变。

为了解决这样的疑问,我们特意咨询了编辑、写手、编剧、公关等许多内容行业的专业人士,征询到18个问题,针对国内的大型语言模型,进行了一次全面的,不同于以往科技工作者的文本应用能力测试。

时隔半年,情况发生了怎样的变化呢?

8月底,首批八款国产大模型完成备案,允许对公众开放:百度(文心一言)、抖音(云雀大模型)、智谱AI(GLM大模型)、中科院(紫东太初大模型)、百川智能(百川大模型)、商汤(日日新大模型)、MiniMax(ABAB大模型)、上海人工智能实验室(书生通用大模型)。

这也让9月成为国产AI大模型的“节日”。这八款大模型中绝大部分免费开放,吸引了许多人的使用。很多媒体也在第一时间进行了简单的上手测试,而一些侧重于逻辑推理等能力的基准评测也迅速展开,各自产生了不同的结果。

越来越多的国产大模型在生成结果时默认加入网络搜索内容,以避免大模型生成错误的叙述,还有些国产大模型表示已经超越了GPT-3.5。此时,我们认为是展开第二轮AI大模型实用性评测的绝佳时机。

本次测试有如下创新内容:

为尽可能排除测试中的干扰因素,使人们可以轻松地比较结果差异与提示词(prompt)之间的关系,我们的问题是模块化的。首先,按照大的任务分类,指定一些基础的提示词片段;然后,依据不同场景,逐级插入相应的段落。

考虑到目前大模型已经陆续接入网络,我们为同一个问题准备了联网和不联网的两种版本。本次测试中将有6个具体产品是联网的,有2个产品是不联网的。另有2个产品只参加跟写作能力有关的测试。

我们着重测试了通过自己长期使用,总结出来大模型最擅长的几种能力,包括对文章进行扩写、缩写和变换写作风格的改写,以及总结长文章的要点等。

这将是一篇特别长的评测。请坐稳扶好,我们现在出发。

测试过程简述:

我们的测试并非旨在提供学术上的严谨标准,我们的目标是:从实用的角度出发,分析这些大模型在各种文本应用场景的综合表现,为文娱、传媒行业从业者提供参考。

我们会基于以下5个维度,为每个答案打0-5分,来评判大模型的表现。

1.语言表达能力:文本是否通顺、流畅,语法是否正确。

2.准确性:模型是否能正确理解问题,并给出准确的信息。

3.完整性:文本内容是否足够完整,是否涵盖了问题的主要内容,是否达到了基本可用的标准。

4.交互性:模型是否能猜测不太准确的问题背后,用户的真实意图。

5.加分项:任何创新、独特、让人眼前一亮的内容(不作具体要求)。

本测试的题目是互相分开的,不设总分。读者可以自行计算模型之间的总分,但对总分的比较没有显著意义。读者只需要留意每一道题的具体分数即可。

包含所有题目及回答的详细测试表单,将通过

转载请注明:http://www.aideyishus.com/lkcf/5949.html

------分隔线----------------------------