Pulse AI 電子報
Posts
Google 推出 Gemini 2.0 系列

Google 推出 Gemini 2.0 系列

lazy kar
February 09, 2025

AI 繪圖 | AI 影片 | AI 學習 | AI 音樂

本周 AI 焦點

📣 ChatGPT Search 現已向所有人開放
📣 OpenAI 推出 Deep Research
📣 Google 推出 Gemini 2.0 系列
📣 人型機械人可像運動員一樣移動
📣 字節跳動推出 OmniHuman AI：單張圖片打造逼真視頻
📣 S1: 以 50 美元對現有模型進行微調，建立推理模型
📣 推薦 4 款提示詞工具
📣 Elements of AI: 免費線上 AI 課程

AI 資訊

ChatGPT 本周更新

推出全新品牌形象，新 Logo、新字體

OpenAI 推出全新品牌形象，新 Logo、新字體

新字體
以圓形為主題設計的全新專屬字體 OpenAI sans，其中的 “O” 形成一個完美的圓形。
改良「Blossom」標誌
OpenAI 標誌經過細微調整，在保留其核心象徵意義的同時，提升了視覺吸引力，展現出更加精緻的品牌風貌。
全新色彩調色盤
採用溫和的灰色與藍色為基調，並以鮮明的點綴色彩作為輔助，營造出既創新又雅緻的氛圍，為品牌注入全新活力。

新的品牌形象已整合到所有 OpenAI 產品，官網亦已更新。

推出 Deep Research

OpenAI Deep Research 是 OpenAI 為滿足多步驟研究任務的新代理功能，模型利用最新的 o3 模型。暫時只供 Pro 用戶每月 100 次查詢，即將提供給 Plus 和 Team 用戶。

核心功能

多步驟推理：基於強化學習訓練的 o3 模型，能將複雜問題拆解為多個步驟，從眾多資料來源中提取關鍵信息並進行綜合。
跨模態整合：利用推理來搜索、解釋和分析互聯網上的大量文本、圖像和 PDF，並根據所獲取的訊息做出調整。
高準確度與權威性：在「人類終極考試」（Humanity's Last Exam）中準確率達 26.6%，超越同類工具。
資料來源：報告最後會提供資料來源，便於驗證。

ChatGPT Search 現已向所有人開放

OpenAI 已向所有人開放 ChatGPT Search，不再需要 OpenAI 帳戶。

用戶現在可以直接透過 ChatGPT 進行網路搜尋。

Google 推出 Gemini 2.0 系列

圖片來源: Google

Google 最新推出三款新的 Gemini 2.0 模型，分別針對不同應用場景，提供多元的性能與成本選項。

Gemini 2.0 Flash Thinking
這款專注於推理能力的模型現已在桌面和行動裝置上的 Gemini 應用程式中通過模型下拉選單開放。 Flash Thinking Experimental with apps 可以觀看 YouTube 影片並提取關鍵資訊。
Gemini 2.0 Flash-Lite
針對開發人員的經濟實惠版本，目前可透過 API 進行公開預覽。
Gemini 2.0 Pro Experimental
專為複雜提示和編碼任務而設計的模型，擁有 200 萬個標記的擴展上下文視窗，是 Flash 版本的兩倍，展現出強大的處理能力。

這些模型目前僅支援文字輸出，但這三種模型都可以處理圖像和音訊作為輸入。

人型機械人可像運動員一樣移動

China's Unitree's G1 robot is a great platform for humanoid robot researchers all over the world.
Here, researchers at CMU pushes the boundaries of human-like motion.
Also, look at the names of the researchers, what do you notice?
— Zhao DaShuai 东北进修🇨🇳 (@zhao_dashuai)
10:11 AM • Feb 4, 2025

Nvidia 與卡內基美隆大學的研究團隊近日推出了名為 ASAP 的 AI 框架，可以讓人形機械人透過模擬學習複雜的動作，模仿職業運動員的獨特動作。
與舊方法相比，使用該系統訓練的機械人在從模擬過渡到現實世界任務時表現出明顯更高的準確性，將運動誤差減少了 53%。
系統分為兩個階段：初始在模擬中進行訓練，然後採用專門的神經網路使動作適應現實世界的物理。
在最新測試中，人形機械人 Unitree G1 可以進行一米多的前跳，並模仿勒布朗詹姆斯和克里斯蒂亞諾羅納爾多等運動員的動作。

字節跳動推出 OmniHuman AI：單張圖片打造逼真視頻

The future of human video generation is here.
Watch as [OmniHuman-1] turns text into a hyper-realistic talking human in seconds! No actors, no cameras—just pure AI magic.
— OmniHuman-1 AI (@OmniHuman1AI)
10:20 AM • Feb 5, 2025

字節跳動最新推出 OmniHuman-1，只需一張圖片和音訊輸入，就能生成任意長寬比與身體比例的高真實度人體視頻。

與之前僅為臉部或上身製作動畫的 AI 工具不同，OmniHuman 可以為整個身體創建逼真的動作，製作出迄今為止最逼真的深度偽造影片。

技術亮點：

全身動畫實現：無論是卡通風、動物還是具有挑戰性的姿勢，OmniHuman-1 都能根據不同視覺和音訊風格，精確模擬人體動作與細節。
強大數據支持：該人工智能接受 18,700 小時的人類視頻資料訓練，融合文字、音訊和肢體動作，不僅可以生成任意長度的視頻，還能模仿原始影片中的特定動作。
突破性的深度偽造：雖然在某些姿勢下可能還會遇到圖像品質的挑戰，但 OmniHuman-1 的表現已遠超現有的深度偽造技術。

以 50 美元對現有模型進行微調，建立推理模型

圖片來源: Github

史丹佛大學和華盛頓大學的研究人員表示，他們只花了 50 美元進行現有模型的微調，並僅用不到 30 分鐘便打造出一款頂級推理模型。

他們是怎麼做到的？

數據收集
研究團隊從 1,000 個精挑細選的問題入手，並利用 Google 的 Gemini Thinking Experimental 模型對每個問題進行解答，完整展示了每個決策背後的思考過程。
跨模型學習新策略
接著，他們將這些數據呈現給阿里巴巴開發的小型開源模型 Qwen。通過觀察 Gemini 的運作方式，這款模型在不到半小時的訓練中迅速學會了類似的推理邏輯。

最終，一款被稱為 s1 的模型在編碼和數學領域的表現，可以媲美 OpenAI 的 o1 和 DeepSeek 的 R1，展示低成本高效率訓練策略的強大潛力。

Figure AI 放棄與 OpenAI 合作，轉而開發自己的 AI 模型

圖片來源: Figure

Figure AI 宣布，未來將不再依賴 OpenAI 的 AI 模型來驅動機械人的視覺與語音功能，而是全力開發自家的 AI 系統，以實現更高的整合性與控制力。
OpenAI 是 Figure AI 的主要投資者，不過該公司最近重啟了其機械人部門，可能會與 Figure AI 形成競爭態勢。
雖然此舉存在風險，但它體現了該公司引領機械人創新的願景。

AI 教學

Elements of AI: 免費線上 AI 課程

圖片來源: Elements of AI

Elements of AI 是由芬蘭赫爾辛基大學和 MinnaLearn 聯手打造的一門免費線上 AI 入門課程。這門課程自 2018 年推出以來，已吸引全球超過 100 萬名學員報名，遍布 170 多個國家。
課程專為各領域學習者設計，無需任何複雜的數學或程式設計背景，都能掌握 AI 基礎知識，了解如何建構人工智能，以及 AI 在各產業的應用場景與商業價值。