OpenAI GPT-4o與Google Gemini競逐

【2024年5月14日讯】

【綜合報導】近日，OpenAI和Google分別推出了新一代人工智慧模型。

OpenAI推出GPT-4o

5月13日，OpenAI在春季发布会上宣布了最新的AI模型「GPT-4o」。這一模型顯著提升了ChatGPT的能力，使其更接近人類“語音助理”。GPT-4o能夠即時對音頻、視覺和文本進行推理。GPT-4o的創新之處在於，通過端到端地訓練一個統一的新模型，實現了所有輸入和輸出的處理都由同一個神經網絡完成。

在發布會上，前沿研究部門主管 Mark Chen 演示了GPT-4o如何感知用戶情緒。當他快速呼吸時，GPT-4o幽默地建議他不要像吸塵器般呼吸，應該放慢速度，並在他深呼吸後給予肯定。此外，GPT-4o具備不同情緒的聲音，Mark 也示範了ChatGPT-4o如何用戲劇化、機器人音調甚至唱歌的方式朗讀故事。

研究員巴雷特·佐夫（Barret Zoph）展示了GPT-4o的實時視覺功能。GPT-4o可以通過手機攝像頭實時解決數學問題，如同一位真實的數學老師在旁指導。它還能通過前置攝像頭觀察用戶的面部表情，分析其情緒。

OpenAI的CTO Mira Murati在發布會上宣布，GPT-4o將免費向所有用戶開放，而付費和企業用戶可以有更多使用GPT-4o的次數。

Google推出Gemini及其在搜索中的應用

緊接著，5月14日，在Google I/O 2024大會上，為滿足開發需求，Google推出了一款介於 Gemini 1.5 Pro 和 Gemini 1.5 Nano 之間的AI模型，名為 Gemini 1.5 Flash，期望在市場上更具競爭力。與此同時，Google也公布了最新的生成式AI視頻模型「Veo」，該模型能夠生成長度超過一分鐘、具有多種視覺和電影風格的高畫質1080p解析度影片。

Google還宣布了「Project Astra」和「Ask Photo」。Project Astra是一個由AI驅動的通用助手的早期版本。通過Ask Photo，用戶可以上傳照片並提出問題，Gemini將利用圖像識別和自然語言處理技術，提供準確的答案。例如“顯示我訪問過的每個國家公園的最佳照片”，Google Photos將使用GPS信息以及其對“最佳”的判斷來向你展示選項。此外，用戶還可以請Google Photos生成標題，以便將照片發布到社交媒體上。

此外，Google宣布將在美國搜索結果頁面的頂部顯示由Gemini生成的完整AI答案，旨在提供更詳細和精確的信息，以滿足用戶的搜索需求。這項功能計劃在年底前推廣給超過十億人。Google還宣布，Gemini將整合到Android系統中，為用戶提供更智能的手機體驗。

消息來源

Park Chan，GPT-4o新功能是甚麼？可以即時語音對答，更可以直接理解視訊、音訊作即時回應，Esquire Hong Kong，2024年5月14日。
新浪财经，3分钟速览OpenAI春季发布会：GPT-4o炸裂登场！听说读写丝滑如真人，新浪财经，2024年5月14日。
Gerrit De Vynck and Danielle Abril，Google pitches its vision for AI everywhere, from search to your phone，Washington Post，2024年5月14日。
Google Blog，I/O 2024: New ways to experience Google AI on Android，Google，2024年5月14日。
罗亦丹，GPT-4o发布：可读懂用户情绪的智能助理如何从科幻走入现实，新京报，2024年5月14日。