您的位置：首頁 >觀察 >

世界短訊！GPT-4視覺識別系統(tǒng)獨享者

來源：太平洋電腦網(wǎng) 時間：2023-05-08 09:23:55

在今年的3月中旬，OpenAi在GPT-4的發(fā)布會上表示，在未來GPT-4的應(yīng)用層中將加入“圖片識別理解能力”，旨在讓GPT-4更好地認知現(xiàn)實事物，同時結(jié)合LLMs的優(yōu)勢理解產(chǎn)出相關(guān)文字內(nèi)容，這一功能看上去非?？?，但OpenAi遲遲沒有讓這一功能上線公測，就在大家都懷疑是OpenAi在畫餅，在做“PPT產(chǎn)品”的時候，一款名為“BeMyEyes”的應(yīng)用打了質(zhì)疑者的臉。

GPT-4發(fā)布會上所提及的“GPT笑話理解圖”

(資料圖片僅供參考)

“BeMyEyes”是一款老應(yīng)用了，于2015年發(fā)布，由丹麥開發(fā)人員HansJ?rgenWiberg創(chuàng)建。其是一款免費的移動端App，旨在幫助視力受損和盲人用戶進行日?；顒?。這款應(yīng)用充當視力受損人士與志愿者之間的橋梁，允許他們通過實時視頻通話請求幫助。志愿者可以幫助解答各種問題，如閱讀標簽、識別顏色、找到物品等。

“BeMyEyes”官網(wǎng)介紹 https://www.bemyeyes.com/

其充分利用了手機攝像頭作為視覺障礙者的眼睛，如果某個志愿者收到請求卻正忙于其他事情無法回應(yīng)，該應(yīng)用會自動將請求轉(zhuǎn)發(fā)給其他可用志愿者，確保視力障礙用戶能夠第一時間得到幫助。截止2023年3月，該應(yīng)用已經(jīng)有了50萬的視覺障礙者用戶以及640萬視力正常的志愿者，服務(wù)比高達12.8:1。

支持多達150個國家與180種語言，也支持中文

可是由于人與人溝通的心理壓力障礙、交流障礙等種種原因，部分視覺障礙者還是沒有接受該軟件的解決方式，認為使用“BeMyEyes”意味著與陌生人共享個人信息和生活場景。這可能讓一些視力障礙者感到危險，擔心自己的隱私和安全。同時，部分視力障礙者可能會認為向他人尋求幫助會降低他們的自尊。他們可能覺得，通過應(yīng)用程序請求幫助意味著承認自己的弱點和不足。

Ai繪畫丨孤獨沮喪的盲人

這些因素讓“BeMyEyes”的推進遇到了瓶頸，直到Ai的火爆。在2022年GPT-3.5模型發(fā)布之時，其強大且難以置信的理解力就震驚了全世界，這個將人類2021年9月前的所有文明當作自己數(shù)據(jù)庫的LLMs（大型語言模型），擁有著史無前例的Ai創(chuàng)造力。

“BeMyEyes”的創(chuàng)造者Wiberg在2023年2月就與OpenAi接洽，獲得了GPT-4模型中的“圖像理解生成技術(shù)”，通過該技術(shù)其推出了一項名為“虛擬志愿者”的新功能，該功能由OpenAI的GPT-4語言模型驅(qū)動。通過整合GPT-4的圖像識別和文字生成技術(shù)，虛擬志愿者可以為視力障礙者提供更為深入的實時視覺輔助。用戶可以通過應(yīng)用發(fā)送圖片，虛擬志愿者會對圖片進行解析，并提供相關(guān)信息幫助。

“BeMyEyes”官網(wǎng)介紹 https://www.bemyeyes.com/

從原理上講，GPT-4模型實現(xiàn)圖片理解功能的關(guān)鍵在于其圖像識別和文字生成技術(shù)。首先，模型接收到用戶上傳的圖片，對圖片進行分析和識別，提取關(guān)鍵信息。在這一過程中，模型需要具備對不同物體、顏色、形狀和場景的識別能力。然后，模型將識別到的信息轉(zhuǎn)換為自然語言描述，與用戶的問題相結(jié)合生成有針對性地回答。在此階段，模型需要理解上下文信息并具備良好的對話能力，以便生成有用的建議和指導(dǎo)。

Ai繪畫丨Ai圖像識別示意圖

在實際應(yīng)用中，當用戶拍下電視機的照片，并語音詢問Ai，電視里在播放什么時，Ai即根據(jù)電視內(nèi)容進行了回復(fù)“Basedonthepictureprovided,itappearsthattheTVisdisplayingavideogamecalledFortnite.根據(jù)提供的圖片，電視似乎正在顯示一款名為《堡壘之夜》的電子游戲?！蓖瑫r還可以轉(zhuǎn)換成西班牙文。

“BeMyEyes”官網(wǎng)介紹 https://www.bemyeyes.com/

在另一個案例中，帶有Ai圖像識別的虛擬志愿者，可以輕松幫助用戶找到不同顏色的條紋襯衫，并告知用戶其他襯衫的顏色。

“BeMyEyes”官網(wǎng)介紹 https://www.bemyeyes.com/

來自美國的LucyEdwards是一名失明了將近10年的盲人女孩兒，雖然眼睛看不見了，但她仍然保持著對生活的熱愛，她是一位內(nèi)容創(chuàng)作者和殘疾活動家，以她的《盲女如何生活》系列和旅行視頻博客生活等而廣受歡迎，她擁有來自世界各地近百萬的粉絲。在今年，她也成了“BeMyEyes虛擬志愿者”的內(nèi)測人員。

圖片源自于網(wǎng)絡(luò)

到目前為止，她用這款工具幫助她閱讀時尚目錄，將中文成分翻譯成英文，搜索網(wǎng)上食譜，為她自己的照片庫中的圖片編寫代替文字，還幫助她閱讀餐廳菜單。Edwards還展示了將虛擬志愿者用作私人教練和倫敦地鐵導(dǎo)游的潛力。

圖片源自于網(wǎng)絡(luò)

Edwards表示Ai可以賦予視覺障礙者更高程度的自主性和私密性。AI技術(shù)使他們能夠依賴個人設(shè)備獨立完成各種任務(wù)，實現(xiàn)真正的自主，并且避免了與陌生人溝通所帶來的尷尬和隱私問題。

圖片源自于網(wǎng)絡(luò)

當我們還在對Ai的技術(shù)歸屬與版權(quán)問題爭論時，世界上已經(jīng)有許多平時不會被關(guān)注、了解的人們開始讓Ai技術(shù)更好地服務(wù)于他們的生活，比如視覺障礙者、聽力障礙者或者語言障礙者，對于他們來說Ai技術(shù)似乎沒有“強烈的威脅性”，而是真真實實地讓他們感受到了科技進步的力量與便捷。

目前希爾頓、微軟、寶潔、索尼加入到了BeMyEyes的虛擬志愿者測試中

對于AI技術(shù)，我們應(yīng)該保持開放和包容的態(tài)度，鼓勵創(chuàng)新與發(fā)展。但同時，要確保AI技術(shù)的安全，我們還需要關(guān)注潛在的倫理問題、隱私問題以及技術(shù)濫用的可能性。AI技術(shù)如同達摩克利斯之劍，它既可以為我們帶來極大的利益，也可能導(dǎo)致無法預(yù)料的危險。因此，在積極推進AI技術(shù)的廣泛應(yīng)用時，我們需要不斷審視其影響，以確保技術(shù)發(fā)展的可持續(xù)性和公平性。

Ai繪畫丨一個機器人正在幫盲人過馬路

關(guān)鍵詞：

九九精品九九,中字幕人妻一区二区三区,亚洲在线丝袜,亚洲欧美综合在线天堂,精品成年

世界短訊！GPT-4視覺識別系統(tǒng)獨享者

熱點

文章排行

娛樂圖賞

世界短訊！GPT-4視覺識別系統(tǒng)獨享者