Apple a antrenat modelele compacte de inteligență artificială să descrie mai bine imaginile decât concurenții lor mari.

08.04.2026 21 software

Apple dezvăluie noua tehnologie „RubiCap” pentru descrierea imaginilor

Cei din Apple au creat o metodă numită *RubiCap*, care permite modelelor AI de dimensiuni reduse să genereze descrieri mai precise și detaliate ale imaginilor decât echivalentele la scară largă.

Cum funcționează RubiCap
1. Analiza imaginii

Pentru a genera un text detaliat, modelul recunoaște întâi numeroase obiecte și zone din cadru. Acest lucru oferă o înțelegere profundă a compoziției, nu doar o descriere superficială.

2. Valoare practică

Abilitățile astfel dobândite sunt utile pentru antrenarea modelelor AI copil, generatorilor de imagini pe bază de text și funcțiilor specializate (de exemplu, îmbunătățirea conținutului vizual).

3. Problema resurselor

Metodele tradiționale de învățare a sistemelor de descriere detaliată necesită costuri computaționale mari atât în faza inițială, cât și în antrenamentul ulterioar prin întărire.

Metodologie experimentală
- Selecția imaginilor – 50 000 de imagini au fost selectate aleatoriu din seturile *PixMoCap* și *DenseFusion‑4V‑100K*.

- Generarea descrierilor – s-au folosit modele existente de viziune computerizată: Google Gemini 2.5 Pro, OpenAI GPT‑5, Alibaba Qwen 2.5‑VL‑72B‑Instruct, Google Gemma‑3‑27B‑IT și Alibaba Qwen 3‑VL‑30B‑A3B‑Instruct, precum și modelele Apple în curs de antrenament.

- Evaluarea calității – Gemini 2.5 Pro a acționat ca expert: analiza descrierilor, identificarea concordanțelor și erorilor, formularea unor criterii clare de evaluare.

- Evaluare de judecată – modelul Qwen 2.5‑7B‑Instruct acorda puncte pentru fiecare criteriu și genera un semnal de recompensă pentru modelul în antrenament.

Rezultate
- Modelul în antrenament primea feedback concret, permițând îmbunătățirea rapidă a preciziei descrierilor fără să se bazeze pe un singur răspuns „corect”.

- În final Apple a creat trei modele proprii: RubiCap‑2B, RubiCap‑3B și RubiCap‑7B (corespunzător 2, 3 și 7 miliarde de parametri).

- La testele de descriere a imaginilor, RubiCap a depășit concurenții cu modele de 32 miliarde și chiar 72 miliarde de parametri. În unele cazuri, RubiCap‑3B a obținut rezultate mai bune decât RubiCap‑7B, confirmând că dimensiunea modelului nu garantează întotdeauna performanța superioară.

Astfel, tehnologia RubiCap demonstrează cum se poate atinge o calitate înaltă a descrierii imaginilor cu resurse reduse și un antrenament mai eficient.

Apple a antrenat modelele compacte de inteligență artificială să descrie mai bine imaginile decât concurenții lor mari.

Related news

Google Gemini a acumulat 750 milioane de utilizatori activi lunar, lăsând ChatGPT la doar o distanță mică de lider.

Nothing a lansat versiunea beta a Essential Apps – o platformă pentru crearea de mini‑aplicații cu ajutorul inteligenței artificiale.

Microsoft a explicat de ce sunt blocate conturile VeraCrypt și alte servicii deschise — din cauza neglijenței creatorilor lor.

Aplicația Meta✴ AI a ocupat locul al cincilea în App Store după lansarea Muse Spark

Comentarii (0)

Autentifică-te pentru a comenta

Apple a antrenat modelele compacte de inteligență artificială să descrie mai bine imaginile decât concurenții lor mari.

Related news

Google Gemini a acumulat 750 milioane de utilizatori activi lunar, lăsând ChatGPT la doar o distanță mică de lider.

Nothing a lansat versiunea beta a Essential Apps – o platformă pentru crearea de mini‑aplicații cu ajutorul inteligenței artificiale.

Microsoft a explicat de ce sunt blocate conturile VeraCrypt și alte servicii deschise — din cauza neglijenței creatorilor lor.

Aplicația Meta✴ AI a ocupat locul al cincilea în App Store după lansarea Muse Spark

Autentifică-te pentru a comenta

Nothing a lansat versiunea beta a Essential Apps – o platformă pentru crearea de mini‑aplicații cu ajutorul inteligenței artificiale.

Aplicația Meta✴ AI a ocupat locul al cincilea în App Store după lansarea Muse Spark