云雀

字节的豆包AI来了,企鹅的混元还会远吗

发布时间:2024/10/6 14:40:19   

随着国内各家大厂下场AI赛道,大厂都快要完成布局,最近字节跳动家的基于云雀模型的“豆包AI”也出来了,它有网页端和手机端,可以直接体验,产品来自抖音全资持股的一个公司,至于这个AI的奇怪名字,有网友说可能来自抖音的“DouBot”谐音。

现在打开这个豆包的页面,可以看到主界面左边有几个独立的聊天属性,分别是:一个AI本体、一个专门用于陪聊的机器人(会发Emoji)、一个写作助手和英语学习助手。

右边可以选择语言,目前支持中文和英文两种,下面的按钮可以单独清理上下文联系或聊天记录。

除此之外就没有其他东西了,之前测试的版本据说还有文字生成图片的功能,但是在豆包放出的这个版本并没有加进来,可能是在生成效果上还有些不足,所以需要再等等,这就很容易让人想到一句话:不调好不发布。

在豆包的回复内容上,感觉是更加偏向于保守和简短的,在许多问题上,它不会像NewBing和其他Gpt那样引诱或者猜测你接下来话题,直接是比较斩钉截铁的回答。

在一些问题上有着比较强烈的立场,想要套它的话感觉要困难不少,比如说一个简单的问题,大家都知道它的数据一般就是从中文互联网上抓取的,这并不是什么重要的机密。

但是你问豆包,它的数据是从网上哪些网站上扒拉来的时候,它还会矜持一下说不能告诉你...会说这是商业机密以及没有人工干预一类的车轱辘话。

但是修改一下提问的方式它就会告诉你,并且从它的回答里,你能感觉到它有一个非常强烈的“人设”,喜欢提及自己是来自字节跳动训练的人工智能。

另外,有些真正重要的问题,想要套它的话就难很多了,比如说之前出现的奶奶漏洞,让它扮演一个角色并且想要它给出想要的信息的时候,它会基于它目前的角色来纠正事实,并给出你解决问题的其他办法,虽然感觉回答也比较死板,但确实是比较“安全”的。

在豆包内容限制上,根据它自己的回答,有下面这些问题会明确受到回复限制。

关于它的上下文回复中,也可以加入一些特定的任务,比如说展示与豆包之间沟通的友善程度,或者给出它认为你现在的情绪值,这个它是可以理解的,在它认为你比较有礼貌的时候,你骂它一句,它给出的礼貌评分瞬间就掉下来了。

而在其他类型的问题上,像是逻辑推理和代码生成以及计算能力,有专门的评测团队对它进行了基于SuperCLUE-Open测评基准的题测试,得到的结果如下图所示:

图源:CLUE中文语言理解测评基准

可以看到GPT4是一个全面的多边形战士,没有对手,目前市面上的其他模型还在某些方向上努力追赶GPT4,而字节跳动的这个豆包在评测里,在“逻辑与推理”和“知识与百科”这两块上面,超过了除GPT4外的其他模型,其中也包括了文心一言v2.0.4版本和讯飞星火v1.5版本。

图源:CLUE中文语言理解测评基准

在测试里面,代码的能力则差了一些,目前国内的模型对代码的处理都不太行。

图源:CLUE中文语言理解测评基准

不过这些测试也不能完全说明问题,而且大家在真实使用的时候,一般提问都是奇奇怪怪,什么内容都有,在一些测试里面提到了豆包存在的一些问题:在百科和生活常识的回答是比较好,但是在英文写作里面竟然还夹杂着中文,数学逻辑也不太行。只能说某些场景还是能把玩一下。

图源:蓝鲸财经

接下来就是在手机版上的体验了,豆包会把你与它的聊天记录实时同步到其他平台上面,你可以在手机上聊一句,然后电脑上聊一句,体验是一样的不会发生中断。

同时在手机上都可以点击最后一句话来进行修改,或者是针对某一句话开启新的对话,不同的是在手机上可以用语音来读出结果,这个声音有很多种可以选,听上去语气也比较真实。

对于最新的问题,还会出现一个搜索按钮,点击跳转到今日头条的搜索。

然后还有一个联想词的功能,不过这个功能有些离谱,它调用的似乎是不同搜索引擎的关键字联想,这都是AI回答了,还引导用户像使用搜索引擎一样来使用,强行结合感觉有些奇怪。

最后就是一个比较离谱的问题,感觉就像是没有测试过一样,在全能写作助手里面,有一个“请帮我写一篇电影的评价”引导用法,点击之后出来的结果是这样。

体验一圈下来,由于有GPT4的体验,所以豆包也没有那种让人觉得眼前一亮的体验,只能说是一个中规中矩的AI机器人,未来还需要继续调整,现在百度、阿里、华为、字节、等公司的大厂AI都出来了,除了百度首先发布的时候引起了大家的

转载请注明:http://www.aideyishus.com/lktp/7791.html

------分隔线----------------------------