Mis on DALL·E 2? Seletus algajatele näidetega

Cto Takoe Dall E 2 Ob Asnenie Dla Nacinausih S Primerami



Mis on DALL·E 2?

DALL·E 2 on tehisintellekti programm, mis loob tekstilistest kirjeldustest pilte, avalikustas neljapäeval uuringufirma OpenAI.





See kasutab loomuliku keele sisendite tõlgendamiseks ja vastavate kujutiste genereerimiseks GPT-3 trafo mudeli 12 miljardi parameetriga koolitusversiooni. Näiteks kui see esitati lausega „mustvalge foto väikesest koerast”, esitas see Chihuahua mustvalge kujutise õigesti.





Süsteem ei ole täiuslik – see tekitab mõnikord pilte, mida on raske tõlgendada või mis on täiesti ebatäpne. Näiteks kui tal paluti luua pilt 'inimesest, kes sõidab üherattalise rattaga nööril vulkaani kohal', tekitas see (minu arvates ilusa, kuid täiesti mitteseotud pildi päikeseloojangust vee kohal väikese kujuga esiplaanil). .





Sellegipoolest on tulemused muljetavaldavad ja OpenAI sõnul on DALL·E 2 'esimene tehisintellekti mudel, mis loob tekstiliste kirjelduste põhjal pilte, mis võivad konkureerida professionaalsete inimkunstnike kvaliteediga.'



Süsteemi koolitati teksti-kujutise paaride andmestiku põhjal, mis koosnes umbes 1,3 miljonist Internetist pärit pildist ja pealdisest, mille kogus ja kureeris OpenAI. Seejärel kasutati koolitusandmeid GPT-3 mudeli peenhäälestamiseks, et see saaks tekstiliste kirjelduste põhjal pilte genereerida.

OpenAI ütleb, et süsteem suudab luua 'kvaliteetseid' pilte paljude tekstiliste kirjelduste, sealhulgas abstraktsete, konkreetsete või isegi poeetiliste kirjelduste põhjal.

Lisaks Chihuahua näitele hõlmavad teised DALL·E 2 piltide näited Adolf Hitleri õigesti renderdatud portree, köögiviljadest valmistatud draakoni kujutist ja röstsaiast valmistatud Mona Lisa kujutist.



Süsteem on võimeline genereerima pilte ka asjadest, mida ei eksisteeri, nagu näiteks „floof” (mõeldud loom) või „tulpa” (mõttevorm).

Üldiselt on tulemused muljetavaldavad ja OpenAI ütleb, et süsteem 'avab uusi võimalusi tekstiliste kirjelduste põhjal piltide genereerimiseks'.

ALATES E 2 See CLIP-süsteem teisendab tekstiinfo visuaalseks informatsiooniks. See on kodeerija-dekoodri paradigma, mis tähendab, et sisendteksti esitamisel teisendatakse see esmalt masinsisendiks, seejärel töödeldakse süsteemi poolt ja lõpuks edastatakse dekoodrile, mis teisendab kodeeritud andmed pildiks.

Mis on DALL E2

Mis on DALL·E 2?

See on uusima põlvkonna DALL·E, generatiivne keelemudel, mis kasutab fraase täiesti uute visuaalsete efektide loomiseks. DALL E 2 on tohutu 3,5 V mudel, kuigi mitte nii massiivne kui GPT-3. Huvitaval kombel on see ka kergem kui tema eelkäija (12B). Kirjelduse joonduse ja fotorealismi osas on DALL·E 2 vaatamata suuremale suurusele 70% parem kui DALL·E 2.

DALL.E 2- selgitus algajatele näidetega

Täpsemalt, DALL·E 2 on hierarhiline tingimusliku tekstikujutise sünteesimudel, mis ühendab süvaõppe loomuliku keele töötlemiseks arvutinägemisega kujutiste genereerimiseks. Selle eesmärk on treenida kahte mudelit ning treeningkomplekt koosneb paarispiltidest ja kirjeldustest. Esimene on a priori, mida saab kirjaliku pealkirja korral õpetada genereerima CLIP-pildi manustamist. Seejärel on meil dekooder, mis saab CLIP-kujutise (ja pealkirja, kui see on olemas) manustamisel genereerida treenitud pildi.

DALLE 2 koolitatakse, kasutades sadu miljoneid Internetist pärit pealdistega fotosid ning mõned neist piltidest eemaldatakse ja segatakse ümber, et muuta modelli õpitut. See otsib mitu pildivalikut CLIP-i manused ja siis kasuta seda dekooder läbida igaüks neist. Seejärel loob see kasutaja sisendi põhjal huvitava segu kogu sellest teabest.

Näide DALL ON 2

Mängime DALL·E mõistmiseks väikest mängu. Jaotame selle kolmeks järgmiseks etapiks.

  1. Kujutage ette vikerkaarte, pilvi ja ükssarvikuid lendamas sinises taevas. Kujutage ette, milline võiks pilt teie kujutluses olla. Inimesed on kõige lähemal pildimanuse täiuslikule analoogile ja pilt, mis just teile pähe tuli, on selle suurepärane näide. Lõpptoote kohta võite ainult oletada, kuid teil on hea ettekujutus sellest, mida see peaks sisaldama. Aprioorne mudel viib lugeja fraasi sõnade juurest stseeni tema kujutluses.
  2. Nüüd saate hakata joonistama. UnCLIP muudab teie vaimse pildi tõeliseks visandiks. Nüüd saate samast kirjeldusest täpselt uuesti luua teise tegelase sama põhistatistikaga, kuid täiesti uue visuaalse stiiliga. DALL·E 2 saab luua ainulaadseid pilte ka sellisel viisil manustatud olemasolevast pildist.
  3. Pöörake tähelepanu tehtud visandile. See juhtub siis, kui visandate kirjelduse 'ükssarvik keset pilvi ja vikerkaar tõuseb vastu taevast'. Nüüd uurige pilti ja teksti, et teha kindlaks, mis illustreerib kõige paremini teist (päike, maja, puu jne) ja mis illustreerib kõige paremini teemat, stiili, värve jne. CLIP kodeerib omadusi. teksti ja pilte.

Nüüd, kui teame, mis on DALL-E, liigume järgmise jaotise juurde ja mõistame selle funktsioone.

Näpunäide: Kuidas luua realistlikke pilte DALL-E-2 AI-teenusega

Omadused DALL E2

Allpool on toodud DALL·E 2 tehnilised andmed.

  1. Variatsioonid
  2. Värvimine
  3. Tekstide erinevused

Räägime neist üksikasjalikult.

kuidas teha visiitkaarte sõnas 2010

1] Variatsioonid

DALL·E 2 läheb kaugemale lihtsalt lause tõlkimisest pildiks. OpenAI saab katsetada generatiivse protsessiga, andes tänu tugevale CLIP-manustamisele antud signatuuri jaoks erinevaid tulemusi. See, mida CLIP oma 'meeles' 'näeb', on see, mida ta peab sisendist oluliseks (jääb kõigi piltide puhul samaks) ja mida saab asendada (mis muutub erinevate piltide puhul). Võimaluse korral säilitab DALL·E 2 nii 'tähendusliku teabe... kui ka esteetilised aspektid'.

2] Värvimine

DALL·E 2 saab olemasolevaid fotosid automaatse täitmisega muuta. Järgmises näites on vasakpoolne pilt originaalkujutis ning kesk- ja parempoolsel fotol on element joonistatud erinevatesse kohtadesse. DALL·E 2 sobitab pildistiilile lisaelemendi. Samuti värskendab see tekstuure ja peegeldusi, et kajastada uut elementi.

Lugege : Mida saate ChatGPT-ga teha?

3] Tekstierinevused

DALL·E 2 teisendab pildid tekstierinevuste abil. DALL·E 2-l on ka täiustatud interpoleerimisvõimalused, mis võimaldavad teil objekte muuta. Üks Twitteri kasutaja suutis oma iPhone'i muuta. twitter.com et seda kontrollida.

Kui teile need funktsioonid meeldivad, pole vaja teha muud, kui minna openai.com ja seejärel registreeruda. Saate luua uue konto või kasutada registreerumiseks olemasolevaid Microsofti või Google'i kontosid. Kui olete seda teinud, saate tasuta krediiti, kui soovite rohkem, peate selle eest maksma.

Need on mõned DALL·E 2 funktsioonid, sellel on palju suurepäraseid kasutusjuhtumeid, kuid alati on soovitatav mitte liiga palju AI-tööriistadele loota. Lõppude lõpuks pole need muud kui tööriistad, mida kasutatakse töö tegemiseks, nad ei saa kunagi asendada inimese emotsionaalset intelligentsust.

Loe ka: Parimad süvavõltsitud rakendused, tarkvara ja veebisaidid.

Mis on DALL E2
Lemmik Postitused