Apple a antrenat modelele compacte de inteligență artificială să descrie mai bine imaginile decât concurenții lor mari.

Apple a antrenat modelele compacte de inteligență artificială să descrie mai bine imaginile decât concurenții lor mari.

21 software

Apple dezvăluie noua tehnologie „RubiCap” pentru descrierea imaginilor

Cei din Apple au creat o metodă numită *RubiCap*, care permite modelelor AI de dimensiuni reduse să genereze descrieri mai precise și detaliate ale imaginilor decât echivalentele la scară largă.

Cum funcționează RubiCap
1. Analiza imaginii

Pentru a genera un text detaliat, modelul recunoaște întâi numeroase obiecte și zone din cadru. Acest lucru oferă o înțelegere profundă a compoziției, nu doar o descriere superficială.

2. Valoare practică

Abilitățile astfel dobândite sunt utile pentru antrenarea modelelor AI copil, generatorilor de imagini pe bază de text și funcțiilor specializate (de exemplu, îmbunătățirea conținutului vizual).

3. Problema resurselor

Metodele tradiționale de învățare a sistemelor de descriere detaliată necesită costuri computaționale mari atât în faza inițială, cât și în antrenamentul ulterioar prin întărire.

Metodologie experimentală
- Selecția imaginilor – 50 000 de imagini au fost selectate aleatoriu din seturile *PixMoCap* și *DenseFusion‑4V‑100K*.

- Generarea descrierilor – s-au folosit modele existente de viziune computerizată: Google Gemini 2.5 Pro, OpenAI GPT‑5, Alibaba Qwen 2.5‑VL‑72B‑Instruct, Google Gemma‑3‑27B‑IT și Alibaba Qwen 3‑VL‑30B‑A3B‑Instruct, precum și modelele Apple în curs de antrenament.

- Evaluarea calității – Gemini 2.5 Pro a acționat ca expert: analiza descrierilor, identificarea concordanțelor și erorilor, formularea unor criterii clare de evaluare.

- Evaluare de judecată – modelul Qwen 2.5‑7B‑Instruct acorda puncte pentru fiecare criteriu și genera un semnal de recompensă pentru modelul în antrenament.

Rezultate
- Modelul în antrenament primea feedback concret, permițând îmbunătățirea rapidă a preciziei descrierilor fără să se bazeze pe un singur răspuns „corect”.

- În final Apple a creat trei modele proprii: RubiCap‑2B, RubiCap‑3B și RubiCap‑7B (corespunzător 2, 3 și 7 miliarde de parametri).

- La testele de descriere a imaginilor, RubiCap a depășit concurenții cu modele de 32 miliarde și chiar 72 miliarde de parametri. În unele cazuri, RubiCap‑3B a obținut rezultate mai bune decât RubiCap‑7B, confirmând că dimensiunea modelului nu garantează întotdeauna performanța superioară.

Astfel, tehnologia RubiCap demonstrează cum se poate atinge o calitate înaltă a descrierii imaginilor cu resurse reduse și un antrenament mai eficient.

Comentarii (0)

Împărtășește-ți opinia — te rugăm să fii politicos și să rămâi la subiect.

Încă nu există comentarii. Lasă un comentariu și împărtășește-ți opinia!

Pentru a lăsa un comentariu, autentifică-te.

Autentifică-te pentru a comenta