OpenAI GPT-4o與Google Gemini競逐
【2024年5月14日讯】
【綜合報導】 近日,OpenAI和Google分別推出了新一代人工智慧模型。
OpenAI推出GPT-4o
5月13日,OpenAI在春季发布会上宣布了最新的AI模型「GPT-4o」。這一模型顯著提升了ChatGPT的能力,使其更接近人類“語音助理”。GPT-4o能夠即時對音頻、視覺和文本進行推理。GPT-4o的創新之處在於,通過端到端地訓練一個統一的新模型,實現了所有輸入和輸出的處理都由同一個神經網絡完成。
在發布會上,前沿研究部門主管 Mark Chen 演示了GPT-4o如何感知用戶情緒。當他快速呼吸時,GPT-4o幽默地建議他不要像吸塵器般呼吸,應該放慢速度,並在他深呼吸後給予肯定。此外,GPT-4o具備不同情緒的聲音,Mark 也示範了ChatGPT-4o如何用戲劇化、機器人音調甚至唱歌的方式朗讀故事。
研究員巴雷特·佐夫(Barret Zoph)展示了GPT-4o的實時視覺功能。GPT-4o可以通過手機攝像頭實時解決數學問題,如同一位真實的數學老師在旁指導。它還能通過前置攝像頭觀察用戶的面部表情,分析其情緒。
OpenAI的CTO Mira Murati在發布會上宣布,GPT-4o將免費向所有用戶開放,而付費和企業用戶可以有更多使用GPT-4o的次數。
Google推出Gemini及其在搜索中的應用
緊接著,5月14日,在Google I/O 2024大會上,為滿足開發需求,Google推出了一款介於 Gemini 1.5 Pro 和 Gemini 1.5 Nano 之間的AI模型,名為 Gemini 1.5 Flash,期望在市場上更具競爭力。與此同時,Google也公布了最新的生成式AI視頻模型「Veo」,該模型能夠生成長度超過一分鐘、具有多種視覺和電影風格的高畫質1080p解析度影片。
Google還宣布了「Project Astra」和「Ask Photo」。Project Astra是一個由AI驅動的通用助手的早期版本。通過Ask Photo,用戶可以上傳照片並提出問題,Gemini將利用圖像識別和自然語言處理技術,提供準確的答案。例如“顯示我訪問過的每個國家公園的最佳照片”,Google Photos將使用GPS信息以及其對“最佳”的判斷來向你展示選項。此外,用戶還可以請Google Photos生成標題,以便將照片發布到社交媒體上。
此外,Google宣布將在美國搜索結果頁面的頂部顯示由Gemini生成的完整AI答案,旨在提供更詳細和精確的信息,以滿足用戶的搜索需求。這項功能計劃在年底前推廣給超過十億人。Google還宣布,Gemini將整合到Android系統中,為用戶提供更智能的手機體驗。
消息來源
- Park Chan,GPT-4o新功能是甚麼?可以即時語音對答,更可以直接理解視訊、音訊作即時回應,Esquire Hong Kong,2024年5月14日。
- 新浪财经,3分钟速览OpenAI春季发布会:GPT-4o炸裂登场!听说读写丝滑如真人,新浪财经,2024年5月14日。
- Gerrit De Vynck and Danielle Abril,Google pitches its vision for AI everywhere, from search to your phone,Washington Post,2024年5月14日。
- Google Blog,I/O 2024: New ways to experience Google AI on Android,Google,2024年5月14日。
- 罗亦丹,GPT-4o发布:可读懂用户情绪的智能助理如何从科幻走入现实,新京报,2024年5月14日。