Analiza zmogljivosti in vpliva najnovejšega modela OpenAI z dodano funkcijo branja fotografij

Najnovejši model OpenAI, GPT-4, ima izboljšane zmogljivosti ustvarjanja naravnega jezika in dodano funkcijo obdelave slik, vendar ima še vedno ranljivosti, kot so pristranskost in halucinacije. Njegova multimodalna funkcionalnost mu omogoča delo z besedilom in slikami, zaradi česar je dragocen za aplikacije, kot je pomoč slabovidnim. Vendar pa so v skupnosti umetne inteligence še vedno prisotni pomisleki glede njegovih omejitev in potrebe po odgovorni uporabi.

ključne točke

GPT-4 je napredni jezikovni model OpenAI, ki ponuja izboljšave pri ustvarjanju naravnega besedila, reševanju problemov in multimodalnih zmožnostih.
GPT-4 je odličen pri obdelavi besedila in slik, saj izboljšuje razumevanje konteksta in prepoznavanje humorja v slikah.
Njegov razvoj je vključeval komunikacijo s človekom in obsežno usposabljanje, zaradi česar je dragocen za aplikacije v resničnem svetu, kot so načrtovanje, odpravljanje napak v kodi, poučevanje jezika in varnostna analiza.

OpenAI je pred kratkim predstavil GPT-4, izboljšano različico svojega programa umetne inteligence za generiranje besedila, ki izkazuje izboljšane zmožnosti generiranja naravnega besedila, bolj natančnega reševanja problemov in hkrati z besedilom obdeluje tudi slike. Kljub temu napredku ima GPT-4 enake ranljivosti kot njegovi predhodniki. Te so pristranskost, izogibanje zaščitnim ukrepom, namenjenim omejevanju žaljivih ali nevarnih rezultatov, in "halucinacije" - samozavestno generiranje neresničnih informacij, ki niso prisotne v njegovih podatkih za usposabljanje.

Sam Altman, izvršni direktor OpenAI, je na Twitterju opisal GPT-4 kot "najmočnejši in najbolj usklajen" model podjetja do zdaj, pri čemer "usklajen" pomeni, da je njegova zasnova v skladu s človeško etiko. Vendar pa je priznal njegove pomanjkljivosti, omejitve in nagnjenost k temu, da je bolj impresiven na začetku kot po daljši uporabi.

Multimodalne zmožnosti GPT-4

Opazen napredek pri GPT-4 je njegova "multimodalna" funkcionalnost, ki mu omogoča delo z besedilom in slikami. Čeprav ne more ustvarjati slik kot drugi modeli umetne inteligence, kot sta DALL-E in Stable Diffusion, lahko GPT-4 obdeluje vizualne vhodne podatke in se nanje odziva.

Annette Vee, izredna profesorica angleščine na Univerzi v Pittsburghu, je poudarila, da je model sposoben razumeti tako kontekst kot sestavo slike. To sposobnost je predstavila tako, da je pokazala, kako je model GPT-4 prepoznal humor na sliki - naloga, ki je njegov predhodnik, ChatGPT, ni mogel opraviti. To poudarja, da je model sposoben povezati vizualne elemente z zaznavanjem družbene govorice.

Vpliv GPT-4 na svet slikovne interpretacije

Pripomoček, ki lahko analizira in opiše slike, je še posebej dragocen za slabovidne ali slepe osebe. Mobilna aplikacija Be My Eyes (ni na voljo v Sloveniji) na primer pomaga uporabnikom z omejenim vidom ali brez vida, z opisovanjem njihove okolice. Aplikacija je integrirala GPT-4, da bi ustvarila "virtualnega pomočnika", ki lahko v skladu z izjavo na spletni strani OpenAI ustvari kontekstualno razumevanje, primerljivo s človeškim pomočnikom.

GPT-4 poleg tega razširja svoje zmožnosti na več kot le opisovanje slik. V predstavitvi je predstavnik OpenAI narisal preprosto sliko spletne strani in jo posredoval GPT-4. Ko je bil GPT-4 pozvan, naj napiše kodo, potrebno za prikaz takšne spletne strani, je uspešno izpolnil nalogo. "V bistvu je bila spletna stran podobna tej podobi. Bila je zelo preprosta, vendar je delovala precej dobro," je komentiral Jonathan May, izredni profesor na Univerzi Južna Kalifornija.

Ne da bi se zanašal na svoje multimodalne zmožnosti, je novi program že zdaj boljši od svojih predhodnikov pri nalogah, ki zahtevajo sklepanje in reševanje problemov. OpenAI je tako GPT-3.5 kot GPT-4 preizkusil na različnih testih, ki jih je oblikoval človek, vključno s simulacijami odvetniškega izpita, testov za srednješolce za maturo in izpitov za napredne študente in celo nekaterih sommelierskih izpitov.

Čeprav je GPT-4 pri številnih merilih dosegel rezultate, ki so primerljivi s človeškimi, in dosledno presegel svojega predhodnika, pa se ni izkazal na vseh področjih. Predvsem je imel težave pri testih iz angleškega jezika in literature. Kljub temu lahko njegove impresivne sposobnosti reševanja problemov izkoristimo za številne aplikacije v resničnem svetu, kot so upravljanje zapletenih urnikov, odkrivanje napak v kodi, razlaga slovničnih posebnosti učencem jezikov ali odkrivanje varnostnih ranljivosti.

OpenAI uvaja nov model, ki je sposoben interpretirati in prikazati obsežne bloke besedila, ki v posameznem koraku presegajo 25.000 besed. Kljub uporabnosti prejšnjih modelov pri dolgih besedilih so imeli občasno težave z ohranjanjem povezanosti v dolgih besedilih. Nedavno predstavljeni model je pohvaljen zaradi svoje "ustvarjalnosti", ki se odraža v zmožnosti ustvarjanja različnih umetniških vsebin v različnih slogih.

V predstavitvi, v kateri sta GPT-3.5 in GPT-4 skušala posnemati slog argentinskega pisatelja Jorgeja Luisa Borgesa v angleškem prevodu, je slednji pokazal večjo natančnost. Da bi v celoti ocenili napredek, upoštevajte, da je morda impresiven na lastnem strokovnem področju, ni pa splošno opazen.

May je osebno raziskal ustvarjalne zmožnosti modela in ga uporabil za oblikovanje "backronym" za svoj laboratorij, ki bi se glasil "CUTE LAB NAME" in hkrati zajemal bistvo njegovega raziskovalnega področja. Tam, kjer je bil GPT-3.5 pomanjkljiv, je GPT-4 zasnoval "računalniško razumevanje in preoblikovanje analize izraznega jezika, ki povezuje NLP, umetno inteligenco in strojno izobraževanje."

Velja omeniti, da je uradno ime njegovega laboratorija Centre for Useful Techniques Enhancing Language Applications Based on Natural And Meaningful Evidence, skrajšano na CUTE LAB NAME. Vendar pa je v drugem testu, ki je vključeval sestavljanje soneta v slogu italijanskega pesnika Petrarke, model privzeto izbral Shakespearjevo obliko, kar je razkrilo določene omejitve njegove ustvarjalne zmogljivosti.

Razvoj od GPT-3.5 do GPT-4

Reševanje in odpravljanje določene težave, kot je izboljšanje razumevanja dodatne pesniške oblike pri GPT-4, je v osnovi preprosto. Človeška komunikacija, vključno s poskusi povzročanja napak, je bistvena za razvoj modela, saj ti vhodni podatki služijo kot orodje za učenje. Model GPT-4 je bil tako kot njegovi predhodniki najprej usposobljen na velikih podatkovnih nizih, nato pa izpopolnjen s testiranjem na ljudeh. Upoštevajte, da je GPT kratica za Generative Pretrained Transformer.

Razvojno pot od GPT-3.5 do GPT-4 je organizacija OpenAI nekoliko zameglila, saj se je zaradi konkurenčnih in varnostnih pomislekov odločila prikriti nekatere podrobnosti, kot je navedeno v priloženem dokumentu za javnost. To pomanjkanje podrobnega razkritja odraža širši trend na vse bolj konkurenčnem področju generativne umetne inteligence, kjer GPT-4 tekmuje z Googlovim Bardom in Metinim LLaMA.

Pomembno je, da bo upoštevanje varnostnih ukrepov ključno pri upravljanju pametnejših klepetalnih robotov, da se prepreči morebitna zloraba, kot je dajanje nedovoljenih navodil, omogočanje kampanj nadlegovanja ali širjenje napačnih informacij v zlonamerne namene. Čeprav je organizacija OpenAI uvedla omejitve za svoje modele GPT, da bi zmanjšala takšna tveganja, so nekateri testerji našli obhodne rešitve.

Znanstvenik in avtor Gary Marcus je izrazil dvom, da se bo z izdajo GPT-4 bistveno spremenilo razmerje med tveganjem in nagrado, ter njegove močne, a neukročene zmogljivosti primerjal z "biki v trgovini s porcelanom".

Vedno večja človeška naravnanost robotov, zlasti pri imitaciji človeškega razmišljanja z govorom, posameznike zavede, da za zaslonom deluje oseba, ki čuti. Vee opozarja, da kljub spretnemu posnemanju njegova notranja obdelava ni podobna resničnemu človeškemu razmišljanju. Zaradi takšnih iluzij o inteligentnem razmišljanju lahko ljudje nehote preveč zaupajo odgovorom, ki jih ustvarijo umetne inteligence, kot je GPT-4, pa čeprav ni nobenega zagotovila za njihovo točnost. May opozarja, da izjave, ki jih ti modeli ustvarijo, niso preverjene resnice in ne črpajo iz ustaljene zbirke odgovorov. GPT-4 na primer generira odgovore od besede do besede na podlagi učnih podatkov, ki so lahko zastareli. V nasprotju z mnenjem uporabnikov se GPT-4 ne zaveda samega sebe in se ne prepozna, saj trdi, da se ne prepozna niti kot "GPT-4".

Interakcija in dostopnost za razvijalce

Raziskovalci in navdušenci nad umetno inteligenco že od njegove predstavitve raziskujejo sposobnosti in omejitve GPT-4. Razvijalci, ki ga želijo vključiti v različne aplikacije, lahko zaprosijo za dostop, tisti, ki se želijo pogovarjati s programom, pa se lahko naročijo na ChatGPT Plus. ChatGPT Plus za naročnino 20 ameriških dolarjev na mesec uporabnikom ponuja možnost interakcije s klepetalnikom, ki ga poganja različica GPT-3.5 ali GPT-4.

Vir:

Scientific American

Analiza zmogljivosti in vpliva najnovejšega modela OpenAI z dodano funkcijo branja fotografij

ključne točke

Multimodalne zmožnosti GPT-4

Vpliv GPT-4 na svet slikovne interpretacije

{{related}}

Razvoj od GPT-3.5 do GPT-4

Interakcija in dostopnost za razvijalce

#

chatgpt

#

gpt35

#

gpt4

#

klepetalniroboti

#

openai

Prihodnost je tu: Izboljšajte svoj iPhone z Apple Intelligence

Kateri klepetalni robot z umetno inteligenco je najboljši za vas? Izberite najprimernejšega

OpenAI brezplačno ponuja funkcije GPT-4o

GPT-4o Stroški, dostop in pojasnjene funkcije

Kako s pomočjo ChatGPT napisati prepričljivo spremno pismo

Nadgradnja ChatGPT, ki prinaša novosti: Brskanje po spletu v realnem času

YouTube s pomočjo umetne inteligence omogoča oblikovanje fotografije seznama predvajanja

Naslednji dodatki pomagajo ChatGPT pri branju vaših PDF datotek

Vloga umetne inteligence in njene strategije odkrivanja globokih ponaredkov

Vzpon virtualnih vplivnežev, ki jih ustvarja umetna inteligenca

Kako se izogniti najpogostejšim napakam, ko začnete z umetno inteligenco

Microsoftov ChatGPT: 34-odstotno povečanje porabe vode vzbuja skrb gospodinjstev

Bodite radovedni. Bodite napredni. Bodite korak pred drugimi.

ključne točke

Multimodalne zmožnosti GPT-4

Vpliv GPT-4 na svet slikovne interpretacije

{{related}}

Razvoj od GPT-3.5 do GPT-4

Interakcija in dostopnost za razvijalce

#

chatgpt

#

gpt35

#

gpt4

#

klepetalniroboti

#

openai

MORDA VAS ZANIMA

Analiza zmogljivosti in vpliva najnovejšega modela OpenAI z dodano funkcijo branja fotografij

Umetna inteligenca na delovnem mestu povečuje produktivnost in ustvarjalnost

Prihodnost je tu: Izboljšajte svoj iPhone z Apple Intelligence

Kateri klepetalni robot z umetno inteligenco je najboljši za vas? Izberite najprimernejšega

OpenAI brezplačno ponuja funkcije GPT-4o

GPT-4o Stroški, dostop in pojasnjene funkcije

Kako s pomočjo ChatGPT napisati prepričljivo spremno pismo

Nadgradnja ChatGPT, ki prinaša novosti: Brskanje po spletu v realnem času

YouTube s pomočjo umetne inteligence omogoča oblikovanje fotografije seznama predvajanja

Naslednji dodatki pomagajo ChatGPT pri branju vaših PDF datotek

Naročite se in prejmite sveže novice v svoj e-poštni predal.