GPT-4o正式发布:免费开放使用 语音对话媲美真人
在OpenAI的直播活动中,OpenAI推出了新的大语言模型GPT-4o。这是其已经问世一年多的GPT-4模型的更新版本。
该模型基于来自互联网的大量数据进行训练,更擅长处理文本和音频,并且支持50种语言。新模式将面向所有用户,而不仅仅是付费用户。
此前GPT-3.5语音对话的平均延迟为2.8秒、GPT-4为5.4秒,音频在输入时还会由于处理方式丢失大量信息,无法识别笑声、歌唱声和情感表达等。
而GPT-4o可以在232毫秒内对音频输入做出反应,甚至还能随意打断,与人类在对话中的反应时间相近,彻底颠覆了以往的“语音助手”。GPT-4o还可以接受文本、音频和图像三者组合作为输入,并生成文本、音频和图像的任意组合输出,人机交互更加自然、全面了。
GPT-4o的能力还会向免费用户开放,不过会限制数量,免费用户达到数量之后,会自动跳回GPT-3.5。GPT-4o还将开放相应API给GPT的开发者,价格是GPT-4-turbo的一半,速度却是GPT-4-turbo的两倍,速率限制也高5倍。
GPT-4o的发布势将撼动快速发展的人工智能领域,目前GPT-4仍然是黄金标准。OpenAI发布新模型也正值谷歌I/O开发者大会的前一天。谷歌是人工智能领域的早期领导者,预计将利用这次活动发布更多人工智能更新,以追赶有微软公司支持的OpenAI。