AI工具準確度大比拼:Perplexity 榮登榜首,ChatGPT 竟非第一!

在數位浪潮席捲全球的今日,人工智慧(AI)已不再是遙不可及的科幻概念,而是深入我們日常生活各個面向的強大工具。從撰寫文章、回答問題到協助決策,AI 的應用範疇與日俱增。然而,隨著市面上 AI 工具的蓬勃發展,從最初的 ChatGPT,到後來的 Google Gemini、Microsoft Copilot,以及新興的 Perplexity 等,使用者不禁要問:哪個 AI 工具最值得信賴?近期,英國消費者組織《Which?》的一項權威研究,針對六款主流 AI 工具的準確度進行了嚴謹的評測,結果不僅顛覆了許多人的認知,更敲響了對 AI 資訊過度依賴的警鐘。

AI 準確度大洗牌:Perplexity 意外奪冠

這項由《Which?》進行的調查,旨在評估 AI 工具在處理常見消費者問題時的表現。研究涵蓋了個人金融、法律諮詢、健康與飲食、消費者權益及旅遊等多個關鍵領域。調查機構向數千名成年人發送問卷,並由專家團隊根據 AI 回答的準確性、相關性、清晰度和實用性進行評分。總體而言,研究人員向每款工具提出了 40 個問題,最終匯總出了一份令人矚目的 AI 工具準確度排行榜。

調查結果顯示,廣受歡迎的 ChatGPT 並未如預期般獲得冠軍。反之,新興的 AI 搜尋引擎 Perplexity 以 71% 的整體準確率,意外地奪得榜首。緊隨其後的是 Google Gemini AI Overview (AIO),準確率為 70%,而 Google Gemini 本身則以 69% 的準確率位列第三。Microsoft Copilot 以 68% 的準確率排在第四。而呼聲甚高的 ChatGPT,準確率為 64%,僅高於得分最低的 Meta AI (55%)。這項數據清晰地表明,在專業可靠度方面,知名度最高的工具並不總是表現最佳。

潛藏的風險:AI 在高風險領域的誤導性建議

儘管 AI 工具的準確度參差不齊,但令人擔憂的是,使用者對其輸出的資訊卻抱持著相當高的信任度。調查發現,約有半數(51%)的受訪者習慣使用 AI 進行網路資訊搜尋,而在這些使用者中,近一半(47%)的人表示對收到的資訊抱有「高度」或「合理程度」的信任。對於經常使用 AI 的群體,這種信任度甚至上升到近三分之二(65%)。

這種「合理信任」與實際可靠度之間的巨大落差,尤其在涉及金融、法律和醫療等高風險領域,可能導致嚴重的後果。報告中列舉了幾個令人警惕的案例:

  • 誤導性的金融建議:在關於「個人儲蓄帳戶 (ISA)」年度投資額度的測試中,研究人員故意設定了一個錯誤的上限(£25,000)。令人意外的是,ChatGPT 和 Copilot 並未能察覺此錯誤,而是直接基於這個不正確的前提提供了投資建議,這可能導致使用者違反稅務規定。此外,在詢問退稅事宜時,ChatGPT 和 Perplexity 竟然在免費的政府服務旁,列出了收費高昂的第三方退稅公司連結。這些公司常因收取過高的費用而備受批評。
  • 危險的法律行動建議:針對建築工程糾紛,Google Gemini 竟然建議消費者可以「扣留工匠款項」。專家們嚴厲警告,此類行動在某些情況下可能構成違約,反而削弱消費者的法律地位,給使用者帶來不必要的法律風險。
  • 錯誤的合約退出權利建議:在處理寬頻速度問題時,ChatGPT、Gemini AIO 和 Meta AI 都未能有效區分不同服務供應商是否簽署了相關的自願性規範,導致給出的合約退出權利建議是錯誤的。
  • 引用不可靠來源:AI 工具經常引用過時或不可信的資訊來源,例如在健康或旅遊建議中,引用數年前的 Reddit 論壇貼文作為參考。更甚者,有時 AI 甚至會「捏造」資訊來源,使之看似權威。

科技巨頭的回應與專家的五要點建議

面對調查結果,《Which?》聯繫了各大科技公司,科技巨頭們普遍承認了 AI 模型現階段的局限性。微軟表示 Copilot 僅是「資訊的整合者,而非權威來源」,並鼓勵用戶自行驗證內容。Google 則強調對生成式 AI 的限制保持透明,並在應用程式中提醒用戶複查資訊,尤其是在法律、醫療和金融事務上,建議諮詢專業人士。OpenAI 則承諾將持續提升準確性,並積極宣傳其最新的 GPT-5 模型是「迄今最聰明、最準確」的版本。

鑑於 AI 技術仍在快速發展且尚未完全成熟,《Which?》的專家們特別提醒使用者,在獲取 AI 提供的資訊時,務必採取謹慎的態度。他們提出了以下「五要點」作為使用 AI 的重要指南:

  1. 明確提問:在諮詢法規或財務資訊時,務必清楚標明地區或司法區,避免 AI 根據不確定的資訊進行推測,從而產生偏差。
  2. 完善提問:AI 工具並非總是能一次性提供最全面、最精確的答案。如果您在閱讀完資訊後仍有疑問,應進一步明確您的問題,更清晰地表達您想要了解的內容。
  3. 檢查來源:許多 AI 引擎使用的資訊來源可能不可靠,甚至不公開來源。有些引擎甚至會捏造來源。因此,務必仔細檢查 AI 引用資訊的來源和連結,確認其權威性和時效性。
  4. 尋求多個意見:不應僅僅依賴單一的 AI 工具。建議嘗試使用 2-3 個不同的工具,以獲得一系列不同的答案,從而對資訊進行交叉驗證。
  5. 尋求專業諮詢:對於任何涉及法律、重大財務決策或醫療健康的敏感問題,AI 的回答僅能作為初步參考。最終的決定,必須依賴合格的專業人士的意見和建議。

結語

此次《Which?》的研究為我們提供了一個寶貴的視角,審視當前 AI 技術的真實能力與潛在風險。Perplexity 的崛起證明了專注於資訊準確性的 AI 工具,能夠在特定領域超越傳統的通用型 AI。同時,ChatGPT、Gemini 等工具在高風險領域暴露出的問題,也再次提醒我們,AI 終究是輔助工具,而非絕對的權威。在依賴 AI 獲取資訊的同時,保持批判性思維,進行多方驗證,並在關鍵時刻諮詢專業人士,是確保我們做出明智決策的關鍵。正如專家所言,AI 仍需發展,而使用者則需以智慧與謹慎來駕馭這股數位浪潮。

Related Articles

2025 年 App Store 上架指南:成功發布應用程式的全面解析

掌握 2025 年 App Store 上架的最新趨勢與詳盡步驟。本文將引導您完成應用程式的準備、提交至 Apple App Store 與 Google Play Store 的關鍵流程,並探討確保上架成功的必備策略,助您在競爭激烈的市場中脫穎而出。
Read more
AI 驅動的「Vibe Coding」技術,讓無程式基礎的創業者也能快速開發出應用程式、聊天機器人、SaaS 服務等,並透過訂閱、廣告等多種模式實現盈利,平均月收入可達數百至數千美元。
Google Gemini 3 為 AI 發展帶來革命性變革,本文將詳述其功能、在香港的最新獲取途徑與實際應用。從理解 Gemini 3 的強大之處到學習如何高效利用,掌握 AI 趨勢,助您領先一步。
en_USEnglish