AI工具準確度大比拼：Perplexity 榮登榜首，ChatGPT 竟非第一！

在數位浪潮席捲全球的今日，人工智慧（AI）已不再是遙不可及的科幻概念，而是深入我們日常生活各個面向的強大工具。從撰寫文章、回答問題到協助決策，AI 的應用範疇與日俱增。然而，隨著市面上 AI 工具的蓬勃發展，從最初的 ChatGPT，到後來的 Google Gemini、Microsoft Copilot，以及新興的 Perplexity 等，使用者不禁要問：哪個 AI 工具最值得信賴？近期，英國消費者組織《Which?》的一項權威研究，針對六款主流 AI 工具的準確度進行了嚴謹的評測，結果不僅顛覆了許多人的認知，更敲響了對 AI 資訊過度依賴的警鐘。

AI 準確度大洗牌：Perplexity 意外奪冠

這項由《Which?》進行的調查，旨在評估 AI 工具在處理常見消費者問題時的表現。研究涵蓋了個人金融、法律諮詢、健康與飲食、消費者權益及旅遊等多個關鍵領域。調查機構向數千名成年人發送問卷，並由專家團隊根據 AI 回答的準確性、相關性、清晰度和實用性進行評分。總體而言，研究人員向每款工具提出了 40 個問題，最終匯總出了一份令人矚目的 AI 工具準確度排行榜。

調查結果顯示，廣受歡迎的 ChatGPT 並未如預期般獲得冠軍。反之，新興的 AI 搜尋引擎 Perplexity 以 71% 的整體準確率，意外地奪得榜首。緊隨其後的是 Google Gemini AI Overview (AIO)，準確率為 70%，而 Google Gemini 本身則以 69% 的準確率位列第三。Microsoft Copilot 以 68% 的準確率排在第四。而呼聲甚高的 ChatGPT，準確率為 64%，僅高於得分最低的 Meta AI (55%)。這項數據清晰地表明，在專業可靠度方面，知名度最高的工具並不總是表現最佳。

潛藏的風險：AI 在高風險領域的誤導性建議

儘管 AI 工具的準確度參差不齊，但令人擔憂的是，使用者對其輸出的資訊卻抱持著相當高的信任度。調查發現，約有半數（51%）的受訪者習慣使用 AI 進行網路資訊搜尋，而在這些使用者中，近一半（47%）的人表示對收到的資訊抱有「高度」或「合理程度」的信任。對於經常使用 AI 的群體，這種信任度甚至上升到近三分之二（65%）。

這種「合理信任」與實際可靠度之間的巨大落差，尤其在涉及金融、法律和醫療等高風險領域，可能導致嚴重的後果。報告中列舉了幾個令人警惕的案例：

誤導性的金融建議：在關於「個人儲蓄帳戶 (ISA)」年度投資額度的測試中，研究人員故意設定了一個錯誤的上限（£25,000）。令人意外的是，ChatGPT 和 Copilot 並未能察覺此錯誤，而是直接基於這個不正確的前提提供了投資建議，這可能導致使用者違反稅務規定。此外，在詢問退稅事宜時，ChatGPT 和 Perplexity 竟然在免費的政府服務旁，列出了收費高昂的第三方退稅公司連結。這些公司常因收取過高的費用而備受批評。
危險的法律行動建議：針對建築工程糾紛，Google Gemini 竟然建議消費者可以「扣留工匠款項」。專家們嚴厲警告，此類行動在某些情況下可能構成違約，反而削弱消費者的法律地位，給使用者帶來不必要的法律風險。
錯誤的合約退出權利建議：在處理寬頻速度問題時，ChatGPT、Gemini AIO 和 Meta AI 都未能有效區分不同服務供應商是否簽署了相關的自願性規範，導致給出的合約退出權利建議是錯誤的。
引用不可靠來源：AI 工具經常引用過時或不可信的資訊來源，例如在健康或旅遊建議中，引用數年前的 Reddit 論壇貼文作為參考。更甚者，有時 AI 甚至會「捏造」資訊來源，使之看似權威。

科技巨頭的回應與專家的五要點建議

面對調查結果，《Which?》聯繫了各大科技公司，科技巨頭們普遍承認了 AI 模型現階段的局限性。微軟表示 Copilot 僅是「資訊的整合者，而非權威來源」，並鼓勵用戶自行驗證內容。Google 則強調對生成式 AI 的限制保持透明，並在應用程式中提醒用戶複查資訊，尤其是在法律、醫療和金融事務上，建議諮詢專業人士。OpenAI 則承諾將持續提升準確性，並積極宣傳其最新的 GPT-5 模型是「迄今最聰明、最準確」的版本。

鑑於 AI 技術仍在快速發展且尚未完全成熟，《Which?》的專家們特別提醒使用者，在獲取 AI 提供的資訊時，務必採取謹慎的態度。他們提出了以下「五要點」作為使用 AI 的重要指南：

明確提問：在諮詢法規或財務資訊時，務必清楚標明地區或司法區，避免 AI 根據不確定的資訊進行推測，從而產生偏差。
完善提問：AI 工具並非總是能一次性提供最全面、最精確的答案。如果您在閱讀完資訊後仍有疑問，應進一步明確您的問題，更清晰地表達您想要了解的內容。
檢查來源：許多 AI 引擎使用的資訊來源可能不可靠，甚至不公開來源。有些引擎甚至會捏造來源。因此，務必仔細檢查 AI 引用資訊的來源和連結，確認其權威性和時效性。
尋求多個意見：不應僅僅依賴單一的 AI 工具。建議嘗試使用 2-3 個不同的工具，以獲得一系列不同的答案，從而對資訊進行交叉驗證。
尋求專業諮詢：對於任何涉及法律、重大財務決策或醫療健康的敏感問題，AI 的回答僅能作為初步參考。最終的決定，必須依賴合格的專業人士的意見和建議。

結語

此次《Which?》的研究為我們提供了一個寶貴的視角，審視當前 AI 技術的真實能力與潛在風險。Perplexity 的崛起證明了專注於資訊準確性的 AI 工具，能夠在特定領域超越傳統的通用型 AI。同時，ChatGPT、Gemini 等工具在高風險領域暴露出的問題，也再次提醒我們，AI 終究是輔助工具，而非絕對的權威。在依賴 AI 獲取資訊的同時，保持批判性思維，進行多方驗證，並在關鍵時刻諮詢專業人士，是確保我們做出明智決策的關鍵。正如專家所言，AI 仍需發展，而使用者則需以智慧與謹慎來駕馭這股數位浪潮。

立即加入🚀🔥Mentalok 慢得樂 Vibe-Coding & Tech Startup創業課程官方頻道，取得更多即時AI，創業及Funding資訊。

立即加入🚀🔥Mentalok 慢得樂 Vibe-Coding & Tech Start…

Source：https://hk.ulifestyle.com.hk/topic/detail/20082330/ai%E6%BA%96%E7%A2%BA%E5%BA%A6%E8%AA%BF%E6%9F%A5%E6%9B%9D%E5%85%89-chatgpt-gemini-%E8%BC%B8%E7%B5%A6-%E5%AE%83-%E7%9B%B2%E7%9B%AE%E7%9B%B8%E4%BF%A1ai%E8%B3%87%E8%A8%8A%E6%81%90%E8%AE%93%E7%94%A8%E6%88%B6%E6%89%BF%E5%8F%97%E6%B3%95%E5%BE%8B%E9%A2%A8%E9%9A%AA