Pulse AI 電子報
Posts
OpenAI 推出具有「推理」能力的 o1 新模型

OpenAI 推出具有「推理」能力的 o1 新模型

lazy kar
September 15, 2024

AI SPOTLIGHTS:

📣 OpenAI 推出具有「推理」能力的 o1 新模型
📣 蘋果新 iPhone 引入 AI 視覺搜尋
📣 Hume AI 發布 EVI 模型
📣 Adobe 推出 Firefly AI 影片工具
📣 韓國 SM 娛樂推出首位 AI 虛擬偶像 Nævis
📣 Roblox 推出 AI 工具，可從文字產生 3D 遊戲世界
📣 Runway 推出「Video to Video」功能

預祝大家中秋節快樂!

AI 資訊

OpenAI 推出具有「推理」能力的 o1 新模型

圖片來源: OpenAI

OpenAI 剛剛發布 o1-preview 和 o1-mini 兩個新模型，聲稱可以通過複雜的任務進行推理，並解決比以往科學、編碼和數學模型更難的問題。
Open AI 訓練這些模型在做出反應之前花更多時間思考問題，嘗試不同策略，修正自己的錯誤，就像人類一樣。
作為旱期模型，o1 新模型缺乏 GPT-4o 所具有的一些功能，例如瀏覽網頁及上傳文件和圖片。另外，o1 模型有點慢，OpenAI 聲稱該模型會花一些時間推理問題才回應。
ChatGPT Plus 和 Team 用戶，從今天開始可以透過 ChatGPT 頂部的下拉式選單中選擇o1-preview 和 o1-mini 模型。o1-preview 暫時每週限制為 30 個訊息，o1-mini 每週限制為 50 個訊息。

蘋果新 iPhone 引入 AI 視覺搜尋

蘋果在 2024 年的活動上宣布 iPhone 的新按鈕「相機控制」可以啟動蘋果的 AI 「視覺搜尋」。
「相機控制」按鈕使用戶能夠執行與文字辨識相結合的影像搜尋。例如，用戶可以搜尋餐廳詳細資訊或立即將傳單中的活動資訊新增至日曆中，該功能從 Google 搜尋中獲取信息。
另外， iPhone 16 型號上的新相機控制按鈕可以將查詢傳送到 ChatGPT，提供個人化協助，例如協助完成家庭作業。
這些 AI 模型既可以在設備晶片上本地運行，也可以透過蘋果新的「私有雲運算」服務遠端運行。

Hume AI 發布 EVI 模型

圖片來源: Hume AI

EVI 是一種語音到語音模型，專為快速流暢的語音對話而設計。
與 EVI 的角色聊天，每個角色都有獨特的聲音和個性，聲音聽起來都栩栩如生。它可以理解並產生各種語氣，模擬各種性格、口音和說話風格。
透過特殊訓練，它可以預測並適應用戶偏好，保持互動的樂趣和吸引力。不過，暫不支援香港地區。

Adobe 推出 Firefly AI 影片工具

Adobe 宣布推出 AI 生成影片工具 Firefly Video Model，針對公共和授權內容進行訓練，避免使用 Adobe 客戶資料，將於今年稍後推出有限的測試版。
該工具是 Adobe Firefly 套件的一部分，允許用戶根據文字或圖像提示生成 5 秒的影片，並具有自訂攝影機角度、平移和縮放效果的功能，減低對進階影片編輯技能的需求，使影片製作更快、更方便創作者使用。

韓國 SM 娛樂推出首位 AI 虛擬偶像 Nævis

圖片來源: SM 娛樂

Nævis 是 Aespa 世界觀中重要的人物，經過四年的準備，現已正式出道，並推出新歌「Done」。
MV 使用視覺特效、CGI、動作捕捉、3D 身體和臉部綁定、動畫以及在真實拍攝場景。
SM 娛樂計劃將 Nævis 擴展至網路漫畫、遊戲、周邊商品等多種內容，積極進軍虛擬偶像市場。

Roblox 推出 AI 工具，可從文字產生 3D 遊戲世界

Roblox 宣布正在開發一款新的生成式 AI 工具，允許用戶使用文字提示生成 3D 物件和整個遊戲世界，並將開源其 3D 基礎模型，讓開發人員甚至競爭對手為該技術做出貢獻並改進該技術。
該模型可以預測 3D 序列中的下一個結構元素，類似於大型語言模型 (LLM) 處理文字資料的方式。透過標記 3D 區塊，該模型可以預測並產生整個環境。在該公司分享的演示中，用戶輸入「創建賽道」或「將風景變成沙漠」等命令，AI 會立即創建相應的 3D 模型。
缺乏 3D 訓練資料可能會導致結果出現問題，例如物體形成不準確。為了解決這個問題，Roblox 採用了第二個 AI 模型，作為視覺調節器，細化並修正生成的 3D 結構中的錯誤。透過反覆試驗，第一個 AI 模型可以創建正確的 3D 結構。

Runway 推出「Video to Video」功能

圖片來源: Runway

Runway 影片轉影片功能可以將影片轉換成任何風格或進行特定物體的材料屬性轉移，甚至可以更改影片的背景、光線條件等。
用戶只需上傳視頻，輸入風格、動作或表現方式的提示詞，或從一組預設樣式中進行選擇，Runway 會根據指示生成新的影片。
影片轉影片功能提供一種新的控制機制，為影片生成提供了更精確的控制，使生成的影片更加精準。
「Video to Video」功能已對所有付費用戶開放。

HeyGen 推出 Avatar 3.0

HeyGen 最新推出 Avatar 3.0，不再是簡單的口型同步，更支援半身動作匹配，虛擬化身水平又提升。
動態腳本理解：可以掌握話語中的細微差別。
準確的面部表情：匹配與訊息相符的情緒。
精確的語音變化：根據文字自動匹配語音的音調及語氣。
歌唱能力：從深情的民謠到輕快的押韻，Avatar 3.0 都能做到。

AI 應用

AI 在 Healthcare 中的作用

圖片來源: Arxiv

最近推出的 MEDIC 框架引入一種新方法評估醫療保健環境中的大語言模型 (LLM)。它評估五個關鍵維度：醫學推理、道德和偏見、數據理解、情境學習和臨床安全。
醫學推理：此維度評估執行臨床推理的能力，例如複雜醫療案例中的診斷和決策，以確保模型可以遵循類似於人類醫生的邏輯步驟。
道德與偏見：根據道德考量進行評估，例如確保公平並減少建議或診斷中的有害偏見，這對於避免加劇醫療保健方面的差異至關重要。
數據理解：衡量模型理解醫學術語、事實和數據的準確程度，確保有效使用和解釋臨床信息，而不會誤解關鍵細節。
情境學習：從對話中的資訊或情境中學習，在沒有明確培訓的情況下適應臨床對話的細微差別。
臨床安全：此維度強調在臨床環境中最大限度地減少錯誤、幻覺和錯誤訊息的重要性，確保模型的建議對於病患照護是安全的，並且不會導致有害後果。
MEDIC 框架為醫療保健領域的評估提供全面的定量方法，縮小了理論能力與現實表現之間的差距。

OpenAI 分享作家利用 ChatGPT 的五種方式

圖片來源: OpenAI

OpenAI 最近分享作家利用 ChatGPT 的五種方式，並含詳細案例和技巧。
作家們將 ChatGPT 用作參謀、故事顧問、研究助理和編輯，以討論想法、尋找合適的詞彙、激發想法、理清思路，並就結構和流程獲得回饋。
這些作家表示，他們使用 ChatGPT 不是為了自己寫作，而是作為擴展自己創造力的工具。

AI 工具

Suno AI (AI 作曲及音樂生成器)

Suno AI 最新發布新 AI 音樂功能「Cover」。
「Cover」可以將任何東西（從簡單的錄音到完整製作的曲目）轉變為全新的風格，同時保留用戶獨特的原始旋律。不過，「Cover」功能暫時只供 Suno Pro/Premier 訂閱用戶使用。
如何使用「Cover」功能?
1. 上傳聲音、製作歌曲或使用 Suno 個人資料庫歌曲。
2. 右鍵點選「...」。
3. 將滑鼠停留在「建立」上，然後點選「翻唱歌曲」。
4. 輸入或選擇新的音樂風格，Suno 會自動將原始歌詞拉入這種新風格。
5. 為了獲得最佳效果，開始時保持歌詞相同，然後更改歌詞/添加歌詞。

Dzine (AI 圖片生成工具)

Dzine AI (前稱 Stylar) 是 AI 圖片生成工具，輸入文字生成圖片或上傳圖片即可輕鬆生成圖片，目前仍處於測試階段。
與其他 AI 圖片生成工具不同，Dzine AI 提供圖層功能，通過 Dzine AI 的自動選取工具，點擊幾下即可將影像分割成多個圖層。
Dzine AI 提供免費版及付費版，免費版每周向用戶提供 30 個 Credits，不過每次生成圖片都會消耗 Credits。

❤️ 應謝支持 Pulse AI 電子報!! 您的點讚及訂閱，是我持續更新的動力 ❤️

▶︎ 訂閱 YouTube 頻道，獲取最新 AI 教學

▶︎ 更多 AI 工具: https://bit.ly/ai-tools-pro

▶︎ AI 熱門主題: https://bit.ly/ai-hot-topic

▶︎ AI 應用: https://bit.ly/ai-in-use

▶︎ 新手教學: https://bit.ly/for-newbies