Biologie | Chimie | Didactica | Fizica | Geografie | Informatica | |
Istorie | Literatura | Matematica | Psihologie |
Descriptorii de culoare si textura
Abstract - Acest articol prezinta o vedere de ansamblu a descriptorilor de culoare si textura care au fost aprobati de Final Committee Draft al standardului MPEG-7. Descriptorii de culoare si textura ce sunt descrisi in aceast articol au suferit o evaluare extinsa si o continua dezvoltare in timpul ultimilor doi ani. Criteriul de evaluare include eficacitatea descriptorilor in recuperarea de asemanare, la fel ca si extractia, depozitarea, si reprezentarea complexitatilor.
Culoarea descriptorilor in standard include o histograma descriptor care este codata folosind trensformarea Haar, o histograma de structura color, un descriptor de o culoare dominanta, si descriptor cu un layout color. Cei trei descriptori de textura includ unul care caracterizeaza regiunile omogene de textura si altul care reprezinta distribuirea de muchie locala. Un descriptor compact care usureaza cautarea unei texturi este si el de asemenea definit. Fiecare din descriptori este explicat amanuntit prin semantica lor, extractie si intrebuintare. Eficacitatea este documentata cu rezultatele experimentale.
I. Introducerea
Culoarea si textura sunt printre cele mai expresive caracteristici vizuale. Munca considerabila a fost facuta in proiecte de creere a descriptorilor eficienti pentru aceste caracteristici pentru aplicatii ca de exemplu recuperarea de asemanare. De exemplu, o histograma color este una dintre cel mai adesea folosit descriptor de culoare care caracterizeaza distribuirea color intr-o imaginea. Aceasta articol furnizeaza cititorului o vedere de ansamblu a tehnologiilor care sunt luate in consideratie de grupul MPEG-7 pentru descrierea continutului vizual bazat pe culorile si texturile sale. Mai multe informatii descrise in amanuntime in ceea ce priveste descriptorii de culoare si textura in MPEG-7 pot sa fie gasite in referinte si alte documente MPEG inrudite.
Descriptorii de culoare si textura care sunt descrisi in aceasta scriere au suferit o serie de teste si dezvoltari in timpul ultimilor doi ani, si astfel reprezinta unele din mai multele tehnologii mature pentru reprezentarea continutului. Aceste teste si dezvoltari au fost dirijate sub diverse Core Experiments definite cu grupul MPEG Video si grupul lui Ad-hoc (Color and Texture Core Experiments). Partea II descrie MPEG-7 Color and Texture Core Experiments, incluzand o discutie scurta pe seturile de date de culoare si textura folosite in aceste experiente. Acestea sunt urmate cu o descriere a descriptorilor de culoare in Sectiunea III. Descriptorii de textura vor fi discutati in Sectiunea IV. Noi concluzionam cu o notita scurta pe unele dintre rezultatele nerezolvate la timpul de scriere al acestui articol.
Trebuie evidentiat faptul ca principalul obiectiv al acestui articol este acela de a oferii o privire de ansamblu asupra descriptorilor MPEG-7. Restrictiile de pagina pe o hartie de tranzactie, nivelul de detaliu tehnic nu este precum noua ne-ar fi placut sa furnizam. Pentru o descriere completa tehnica, cititorului interesat ii este referit la [1], [2].
II. Procedurile pentru experimente de baza de culoare si textura MPEG-7
Experimentele de baza sunt de obicei dirijate in timpul standardizarii MPEG sa compare diferite tehnologiile concurente cu privire la fondarea meritelor unei tehnologie propuse. Tehnologiile in grupul video anterior standardelor MPEG in primul rand au utilizat o comprimarea eficienta, si raportul semnal-zgomotul( SNR), au constituit un etalon eficace pentru comparatie. Comparand si evaluand tehnologii diferite pentru MPEG-7, descriptorii vizuali au prezentat un set diferit de provocari, pe masura ce au existat reguli necomune pentru evaluarea metodelor diferite.
Pentru descriptorii vizuali, aplicatia de recuperare a fost gasita sa fie modelul cel mai bun. Un rezultat de recuperare ca raspuns la o caracteristica vizuala v-a fi un indicator bun pentru expresivitatea descriptorului. In experimentele de culuare si textura, asa numita "intrebarea cu modelul de exemplu" are sa fie angajata ca metoda principala pentru evaluari. In intrebarea-cu-exemplu, valorile respectivului descriptor sunt extrase din imaginea de intrebare, si dupa aceea egalate cu descriptori de imagine corespunzatori ce sunt continuti intr-o baza de date. Pentru a fi obiectiva in comparatie, o masura cantitativa este necesara. Aceasta necesita specificatii ale seturilor de date, setul de intrebare si datele corespunzatoare ground-truth. Datele ground-truth sunt un set de imagini vizuale similare pentru o imagine data.
In experimentele de culoare si textura, numarul de intrebari a fost despre 1% din numarul de imagini din baza de date. De exemplu, in experimentele de culoare, un set de date de culori comune
(CCD) se compunere din aproximativ 5000 de imagini, si un set de 50 intrebarile de culoare comune( CCQ), fiecare cu imaginile ground-truth specifice, au fost definite.
Pentru experimentele de culoare si textura, setul de date consta in o varietate de imagini stationare, imagini de la galeriile de fotografie, print-screenurile de ecran de televiziune, si animatiile. Intrebarea si imaginile corespunzatoare ground-truth au fost manual stabilite printr-un proces de inspectie vizuala si verificare in cruce de grupuri diferite de participanti in MPEG.
Dupa ce bazele de date si intrebarile cu ground truth au fost definite, este necesar a cantari rezultatele interogarilor bazate pe niste masuratori numerice. O masuratoare populara este rata de intoarcere (RR)
- marimea ground truth -ului setat pentru o interogare q.
-nr. Imaginilor ground truth gasite in primele intoarceri.
-acesta ia valori intre 0 si 1, unde 0 reprezinta faptul ca "nu s-au gasit imagini" si 1 pentru "toate imaginile".
Factorul trebuie sa fie >=1, unde cucat este mai mare cu atat este mai tolerant. Daca (1) are loc peste intreg setul de interogari NQ, media ratei de intoarcere (ARR) este data de:
In timp ce rata de intoarcere RR si media ei ARR sunt aproape de a fi calculate, raman cateva probleme. Pentru un set de date nefortat- imaginile tipice folosite in experientele de intoarcere- nu este posibil a avea nici un un numar fix de articole ground truth pentru toate interogarile. Lasand sa varieze cu q prezinta o inclinare pentru interogarile sigure, in special daca se afla o variatie mare in acest numar
In plus, RR dupa cum e definit in( 1) este o limita dura a unei masurii. Deci, configurand s-ar putea sa nu fie corespunzator ca pe masura ce s-a recuperat
o imagine de la ground truth cu rangul sa excluda de la contributia la( 1). Pe de alta parte, selectand valorile mai mari vor fi mai putin distinctive intre foarte bunele rezultate de recuperare si cele nu atat de bune. De exemplu, cu , RR va fi egal pentru cazurile unde toate imagini au fost gasite la rang intre 1 . NG, sau unde toate
imaginile au fost gasite la rang NG+1 . 2*NG, ultima clar fiind un rezultat mai rau.
Pentru a adresa aceste probleme, masurile normalizate care tin seama de dimensiunile diferite de ground truth si de rangurile reale obtinute de la recuperari. Recuperarile (reintoarcerile) care pierd articolele sunt o penalitate desemnata. Luati in consideratie o interogare q. Presupuneti ca rezultat al recuperarii, ground truth-ul cu numarul k pentru aceasta interogare q a fost gasit la rangul specific k. In plus, un numar K>=NG este definit ca specificand rangurile semnificative, rangurile care pot fi inca considerate fezabile pe masura ce se realizeaza in temeni subiectivi de evaluare a recuperari. Pentru un nr. relativ mare NG( 20-25 de articole), subiectele ar trebui sa judece rezultatele de recuperare pe masura ce sunt folositoare si daca articolele au fost gasite cu rangul aproximativ . Penalitatea atribuita ar trebui sa fie >=K, dar s-a demonstrate ca o penalitate doar egala cu K ar fi pus intoarcerile cu prea multe pierderi in avantaj. Un compromise bun este acela de a defini rangul ca:
Din(3), rezulta rangul mediu (AVR) pentru interogarea q
Oricum, pentru a minimize influenta variatiunilor in NG(q), un rang de intoarcere modificat (modified retrieval rank) MRR este definit ca:
MRR(q)=0 in cazul unei intoarceri perfecte(ground truth gasit la primele NG(q) pozitii).
O normalizare finala cu respectarea NG(q) duce la "normalized modified retrieval rank" NMRR:
NMRR(q) poate lua valori 0(indica toate ground truth gasite ) si 1 (nu a gasit nimic). Din (6), rezulta "average normalized modified retrieval rank ANMRR):
ANMRR este criteriul de evaluare folosit in toate experimentele importante de culoare MPEG-7. Dovada a aratat ca masura ANMRR coincide aproximativ liniar cu rezultatele de evaluare subiectiva despre acuratetea de recuperare a motoarelor de cautare [12]. Desigur, evaluare descriptorilor vizuali nu se pot sprijini numai pe acuratetea de recuperare. In plus, alte criterii sunt: caracterul compact, complexitate de extractie de caracteristici, potrivirea, scalabilitatea. O relatie puternica exista intre caracterul compact al unui descriptor(socotit in numar de biti necesari pentru reprezentare), si acuratetea de recuperare. Aceasta permite instalarea curbelor "rate-accuracy"( asemanator curbelor SNR in mare masura folosite in codarea de imagini si video).
III. Culoarea
Culoarea este probabil cea mai expresiva trasatura vizuala si a fost extensiv studiata in cadrul cercetarii recuperarii imaginilor din ultima decada. O schema a descriptorilor de culoare in versiunea curenta a schitei finale a comitetului MPEG-7 este reprezentata in Fig. 1.
Fig 1. Descriptorii de culoare MPEG-7
Descriptorii de imagine constau dintr-o serie de descriptori de histograma, un descriptor al culorii dominante si un descriptor al conturului culorii (DCC). Acest set de descriptori a fost definit pentru a deservi diferite domenii de aplicabilitate mentinand un numar minim de variante posibile, pentru a garanta interoperabilitatea dintre descrierile culorilor generate in mod diferit de MPEG-7. Scopul acestei lucrari nu este de a rezuma intregul proces de selectie care a avut loc in experimente; in general, descriptorii au fost acceptati si definiti pe baza unor studii detaliate a eficientei lor, a complexitatii, precum si a altor criterii precum aplicabilitatea intr-o gama larga de aplicatii. Descriptorii de culoare care provin din analiza histogramei au avut un rol central in dezvoltarea descriptorilor vizuali in MPEG-7. In primul rand, un descriptor de histograma al culorii generice a fost definit ca fiind capabil sa capteze distributia culorii cu o acuratete rezonabila pentru aplicatii precum cautarea unei imagini sau recuperarea ei. Totusi, exista prea multe dimensiuni independente intr-o histograma a culorii generice. Acestea includ alegerea unui spatiu al culorii si subdivizarea valorilor histogramei. S-a ajuns repede la concluzia ca a lasa aceasta alegere utilizatorului ar distruge scopul standardului, respectiv interoperabilitatea dintre descriptorii generati de diverite sisteme MPEG-7. Exista o nevoie clara de a limita setul de descriptori derivati din histograme. Descriptorul de culoare scalar (DCS) este definit printr-un spatiu al culorii cu o valoare a saturatiei nuantei (VSN), cu subdivizarea spatiului culorii fixate, si foloseste o codificare novatoare prin transformarea Haar. Codificarea bazata pe transformarea Haar faciliteaza o reprezentatie scalara a descrierii, precum si scalaritatea complexitarii pentru extragerea trasaturilor si proceduri de asociere. Acest descriptor poate fi extins la o colectie de imagini sau un grup de cadre dintr-un film video, si descriptorul grup de cadre/grup de imagini specifica diferite modalitati de a construi o asemenea histograma. Histograma structurii culorii isi propune sa identifice distributii locale ale culorii folosind o mica fereastra de structurare. Pentru a asigura interoperabilitatea, histograma structurii culorii este construita in spatiul culorii numit diferenta-min-max-de nuanta (HMMD). Descriptorul culorii dominante ofera distributia culorii dominante din imagine. Spre deosebire de subdivizarea binara intalnita la histograme, specificatia culorilor intr-un descriptor al culorii dominante este limitata doar de subdivizarea spatiului culorii. Scopul sau este sa furnizeze o reprezentare eficienta, compacta si intuitiva a culorilor prezente in regiunea de interes.
DCC surprinde conturul spatial al culorilor dominante impus pe un "gratar" in regiunea de interes. Acesta este un descriptor foarte compact care este foarte eficient in aplicatiile de cautare rapida. Poate fi aplicat atat imaginilor fara miscare cat si segmentelor video. Sectiunile urmatoare se refera la detaliile tehnice ale fiecarui dintre acesti descriptori de culoare incepand cu o scurta descriere a spatiilor culorilor folosite in MPEG-7.
A. Spatiul culorii
Diferitele spatii ale culorilor folosite in MPEG-7 includ familiarul monocrom, RGB, HSV, YCrCb si noul HMMD. Poate fi folosit si spatiul monocrom (doar pentru intensitate). Acesta corespunde componentei in spatiul YCrCb. RGB poate fi definit cu referinta la culorile primare, daca sunt disponibile din procesul de captare. Conversia din RGB normalizat (in care valorile fiecarei componente spectrale sunt de la 0 la 1) in alte spatii ale culorii este reprezantata in Fig. 2.
(a)
(b)
(c)
Fig. 2. Spatii ale culorii folosite in MPEG-7. (a) spatiu al culorii RGB in YCbCr. (b) spatiu al culorii RGB in HSV. (c) spatiu al culorii RGB in HMMD
Spatiul culorii HSV este o alegere populara pentru manipularea culorii. Spatiul culorii HSV este dezvoltat pentru a asigura o reprezentare intuitiva a culorii si pentru a aproxima modul in care oamenii percep si manipuleaza culoarea. RGB in HSV este o transformare nelineara, dar reversibila. Nuanta (H) reprezinta componenta spectrala dominanta - culoarea in forma pura, cum ar fi verde, rosu sau galben. Adaugarea albului in culoarea pura schimba culoarea: cu cat exista mai putin alb, cu atat culoarea este mai saturata. Aceasta corespunde saturatiei (S). Valoarea (V) corespunde luminozitatii culorii. Sistemul coordonat este cilindric, si este adesea reprezentat de un subspatiu definit de o piramida inversata cu sase laturi. Varful piramidei corespunde cu V=1, cu "alb" in centru. Nuanta este masurata de unghiul din jurul axei verticale, cu rosu corespunzand valorii 0. Saturatia se intinde de la 0 in centru la 1 la suprafata piramidei. Se foloseste si un con inversat pentru a reprezenta subspatiul in locul piramidei.
Un nou spatiu al culorii, HMMD, poate fi de asemenea folosit in MPEG-7. Nuanta are aceeasi semnificatie ca in spatiul HSV, ioar max si min sunt maximul si minimul din cadrul valorilor R, G si respective B. Componenta diff este definita ca diferenta dintre max si min. Doar trei din cele patru componente sunt suficiente pentru a descrie spatiul HMMD. Acest spatiu al culorii poate fi definit folosind structura conului dublu aratat in Fig. 3.
Fig. 3. Spatiul de culoare HMMD.
In partea centrala a experimentelor MPEG-7 pentru recuperarea imaginii, s-a observat ca spatiul culorii HMMD este foarte eficient si a fost comparat favorabil in detrimentul HSV. Este de notat ca HMMD este o mica intorsatura in HIS, in care componentul diff este scalat de valoarea intensitatii. HMMD este folosit in descriptorul structurii culorii (DSC).
Pentru a asigura interoperabilitatea, spatiile culorii premise pentru diversi descriptori ai culorii sunt constranse de standard. Descriptorul culorii dominante permite specificarea culorii in oricare spatiu al culorii suportat de MPEG-7. Spatiul RGB nu este foarte efficient pentru sarcini de cautare si recuperare nu este folosit explicit in niciun descriptor de culoare. SCD foloseste spatiul HSV si histograma structurii culorii foloseste spatiul HMMD. CLD este definit pentru spatiul YCrCb. Acesti descriptori ai spatiului culorii sunt folositi si pentru descriptorii vizuali, spre exemplu, pentru a specifica "proprietatile media" in schite de descriere adecvate.
B. SCD
Descriptorul de histograma al culorii generice definit in experimente MPEG-7 timpurii este un descriptor compus care consta din spatiul culorii, subdivizarea culorii si descriptori de histograma. Aceasta ar permite specificarea histogramelor culorii cu variate numere de subdivizari binare si neuniforme a diferite spatii ale culorii. Totusi, nu este de dorit sa se asigure prea multa flexibilitate intr-o asemenea specificare, deoarece ar limita interoperabilitatea dintre diferite descrieri bazate pe MPEG-7. SCD se adreseaza problemei interoperabilitatii fixand spatiul culorii la HSV, cu a subdivizare uniforma a spatiului HSV la 256 binare. Valorile binare sunt subdivizate neuniform la o valoare de 11 biti. Aceasta metoda obtine interoperabilitate completa intre diferite rezolutii ale reprezentarii culorii, intinzandu-se de la 16 biti pe histograma minim la aproximativ 1000 de biti pe histograma maxim. Desigur, acuratetea descrierii trasaturilor este dependenta de numarul de biti folositi. Totusi, experimentele au aratat ca se pot obtine rezultate bune de recuperare folosind doar 64 de biti, si rezultate excelente folosind o rezolutie medie sau maxima a descriptorului. Spatiul HSV este subdivizat uniform intr-un total de 256 binare. Acestea include 16 nivele in H, patru nivele in S si patru nivele in V. Valorile histogramei sunt retezate intr-o reprezentare unitara de 11 biti. Pentru a obtine o codare mai eficienta, valorile unitare de 11 biti sunt mai intai incadrate intr-o reprezentare nelineara de 4 biti, acordand o importanta mai mare valorilor mici cu probabilitati mai mari.
Reprezentarea de 4 biti a histogramei HSV cu 256 binare ar necesita 1024 biti pe histograma, un numar prea mare pentru multe aplicatii MPEG-7. Pentru a micsora acest numar si pentru a face aplicatia scalara, histogramele sunt codate folosind transformarea Haar. Unitatea de baza dintr-o transformare Haar consta dintr-o operatie de adunare si una de scadere (vezi Fig. 4. (a)), care sunt legate de filtre primitive de trecere joasa si inalta.
Fig. 4. (a) unitate de baza a transformarii Haar. (b) O diagrama schematica a generarii SCD.
Insumarea perechilor histogramelor adiacente este echivalenta cu calcularea unei histograme cu jumatate din numarul de binare. Daca acest process este savarsit repetitive, folosirea subseturilor de coeficenti in reprezentarea Haar este echivalenta cu histograme de 128, 64, 31 . binare, fiind toate calculate din histograma sursa.
Coeficientii cu trecere inalta (diferenta) din transformarea Haar exprima informatiile continute in nivele cu rezolutie mai fina ale histogramei. Semnalele naturale ale imaginii expun de obicei un surplus mare intre liniile histogramei adiacente. Aceasta poate fi explicata de "impuritatea" (mica variatie) culorilor cauzata de variatia luminii si de efectul de umbra. Prin urmare, este de asteptat ca coeficientii cu trecere inalta care exprima diferente intre binarele adiacente ale histogramei sa aiba de obicei valori mici. Exploatand aceasta proprietate, este posibil sa retezam coeficientii cu trecere inalta la o reprezentare unitara cu un numar mic de biti.
Figura 4 (b) arata diagrama intregului sistem. Reprezentarea productiei este scalara in numere si binare, variind numarul de coeficienti folositi. Interoperabilitatea dintre diferite nivele ale rezolutiei este impiedicata din cauza proprietatii de scalare a transformarii Haar. Prin urmare, asocierea bazata pe informatiile provenite de la subseturi de coeficienti garanteaza o aproximare. Tabelul I arata legatura dintre numarul de coeficienti Haar specificati in SCD si partitii in componentele unei histograme HSV corespondente care poate fi reconstruita pe baza coeficientilor.
Tabelul I - Partitionari echivalente ale spatiului culorii HSV pentru diferite configuratii ale SCD
Un alt tip de scalaritate este obtinut prin scalarea reprezentarii subdivizate a coeficientilor in diferite numere de biti. Coeficientii "diferenta" in transformarea Haar pot avea valori positive sau negative. Partea cu semnul este mereu retinuta, in timp ce partea cu magnitudinea poate fi scalata prin omiterea bitilor cel mai putin importanti. Folosind doar bit-ul semn (1 bit pe coeficient) se poate ajunge la o reprezentare extreme de compacta, desi este impiedicata eficienta recuperarii. La cel mai inalt nivel de acuratete, bitii 1-8 sunt definiti pentru reprezentari unitare a partii magnitudinale, in functie de relevanta coeficientilor respectivi. Intre aceste extreme, se poate scala la diferite nivele de rezolutie. Spre exemplu, se dau un set de cinci coeficienti ale caror magnitudini sunt codate folosind 8, 4, 7, 3 si respectiv 7 biti. Daca cei mai mici 3 biti sunt inlaturati in reprezentarea scalara, raman doar 5, 1, 4, 0 si 4 biti pentru a codifica valoarea absoluta.
In asocierea prin similaritate a histogramelor, norma L1 (suma diferentelor absolute) ofera de obicei o buna acuratete a recuperarii. Asocierea bazata pe norma L1 poate fi similar aplicata in domeniul transformarii Haar. Totusi, rezultatele nu sunt identice cu asocierea directa in domeniul histogramei (cu exceptia cazului in care coeficientii de trecere inalta au semen identice in cele doua descrieri comparate). In cazul in care este folosit doar bitul semn, norma L1 degenereaza spre o distanta Hamming, permitand chiar mai putina complexitate in cautare.
Pentru calcularea acuratetii de recuperare a SCD, este folosita masura ANMRR descrisa in Sectiunea II. Numarul de coeficienti Haar folositi pentru asociere era intre 16 si 256 (vezi Tabelul I), prin care este obtinuta scalaritatea binara. Pentru scalaritatea bit plana, a fost explorata reprezentarea de la 1 bit (doar semn) la o gama larga. Rezultatele se vad in Fig. 5.
Fig. 5. Rezultate cu diferite numere de coeficienti Haar (16-256) subdivizati la diferite numere de biti
In plus, ANMRR a fost calculate in domeniul histogramei dupa efectuarea unei transformari Haar inversate. Asocierea in domeniul histogramei pare sa fie cea mai performanta, precum arata curba H-Rec. Rezultatele arata ca poate fi obtinuta o performanta rezonabila chiar si la reprezentari de 16 si 32 biti pe histograma, iar performanta pare a fi saturata la aproximativ 128 si 256 biti pe histograma. Asocierea coeficientilor in spatiul Haar este la fel de complexa ca asocierea in spatiul histogramei, presupunand ca numarul de coeficienti este egal cu numarul de binare din histograma si distantele sunt la fel in ambele cazuri. Complexitatea generarii coeficientilor Haar este marginala in comparatie cu generarea histogramelor, si prin urmare nu este un surprus in complexitatea extragerii trasaturilor.
Compararea reprezentarilor de diferite marimi in SCD este relativ simpla. In SCD, este usor sa efectuezi asocieri pe subseturi de coeficienti Haar, care corespund unei aproximari nefinisate a histogramei sursa. Acest lucru permite si aplicarea asocierii nefinisat-in-detaliat. Pentru o anumita intrebare, o versiune nefinisata a SCD este prima data asociata pentru a selecta un subset de imagini candidate intr-o baza de date, iar o asociere detaliata bazata pe mai multi coeficienti este efectuata doar pe acest subset. O asemenea procedura poate obtine o accelerare semnificativa fata de cautari in baze mari de date.
GoP extinde aplicatia SCD la o colectie de imagini, segmente video sau regiuni in miscare. In descriptorul GoP, sunt identificate trei modalitati diferite de calculare a valorilor unite ale histogramei culorii pentru intreaga serie folosind histograme individuale din itemi din cadrul colectiei: calcularea mediei, filtrarea mediana si intersectia histogramelor. Aceasta histograma a culorilor unite este apoi procesata in SCD folosind transformarea Haar si codata.
C. CSD
Acest descriptor exprima structura locala a imaginii dintr-o imagine folosind un element de structura. Numara de cate ori o culoare este continuta de un element de structura 8x8 in timp ce elementul de structura scaneaza imaginea.
CSD este definit folosind patru puncte de operare a subdivizarii spatiului culorii: 184, 120, 64 si 32 binare. Pentru a construe o culoare subdivizata la nivelul 184, HMMD este divizata in cinci subspatii. Aceasta divizare a subspatiului este efectuata pe parametru diff. Pentru subspatiile respective, subdivizarea uniforma a culorii pe valorile Nuanta si Suma rezulta intr-o subdvizare a culorii la nivelul 184. Numarul de nivele de subdivizare pentru fiecare subspatiu pentru numere diferite de binare ale histogramei este dat in tabelul II.
Tabelul II - Subdivizarea HMMD a spatiului culorii pentru CSD
Pentru a calcula CSD, un element de structra 8x8 este folosit. Desi numarul total de mostre este mereu 64, extensia spatiala a elementului de structura mentine o scara cu dimensiunea imaginii. Urmatoarea regula simpla deteremina extensia spatiala a elementului de structura in functie de dimensiunea imaginii:
Unde W, H sunt latimea si respective inaltimea imaginii
ExE extensia spatiala a elementului de structura
K factorul pentru mostre.
Pentru imagini mai mici de 256x256 pixeli, este folosit un element 8x8 fara mostre. Ca alt exemplu, daca dimensiunea imaginii este 640x640, atunci p=1, K=2 si E=16. Prin urmare, orice mostra alternativa de-a lungul randurilor si coloanelor unui element de structura 16x16 este folosita pentru a calcula aceasta histograma.
Fig. 6. arata elementul de structura in locatia initiala in coltul din stanga sus a imaginii. Elementul de structura trece peste imagine si este mutata cu un pixel in Fig 6 (a) si cu 2 pixeli in Fig 6 (b). Cazul (b) corespunde extragerii unei mostre din imagine prin doua si in ambele directii si ulterior aplicarea aceluiasi element de structura 8x8. Fiecare binar al CSD h(m) reprezinta numarul de locatii ale elementului de structura la care un pixel incarcat de culoare cade in interiorul elementului. Originea elementului de structura este definit de mostra din coltul din stanga sus. Locatiile elemntului de structura peste care este acumulat descriptorul sunt definite de "gratarul" de pixeli ale imaginii mostra.
Valorile binare h(m) ale CSD sunt normalizate de numarul de locatii ale elementului de structura si se gasesc intre [0.0, 1.0]. Valorile binare sunt apoi subdivizate nelinear la 8 biti pe binar.
Fig 6. Elementele de structura pentru imagini cu diferite rezolutii. a. 320 x 240
b. 640 x 480
Tabelul III - Rezultatele ANMR pentru CSD folosind spatiul culorii HMMD
CSD care contin 120, 64 si 32 binare sunt calculate pe baza calculelor aproximative facute cu ajutorul descriptorului de 184 binare. Trasarea unei harti a descriptorului 184 binare intr-un descriptor cu un numar mai mic de binare este definit prin re-subdivizarea culorii reprezentate de fiecare binar ale descriptorului 184 binare intr-un spatiu al culorii mai putin finisat, dupa cum este specificat in Tabelul II.
Similar altor descriptori de histograme, o masura L pentru distanta este folosita pentru a calcula neasemanarile dintre doua CSD. Tabelul III arata performanta acestui descriptor pentru diferite numere de subdivizari binare si in biti. Cunoscutul set de culori a fost usor modificat prin adaugarea catorva imagini pentru a ilustra diferenta calitativa in performanta de recuperare dintre structura culorii si histogramele scalare ale culorii.
D. Culoarea dominanta
Un set de culori dominante intr-o regiune de interes sau intr-o imagine pune la dispozitie o descriere compacta care este usor de indexat. Aplicatia tinta recupereaza similar in baze de date mari de imagini folosind culoarea. Culorile in o regiune data sunt grupate intr-un numar deprezentativ de culori. Descriptorul caracteristicii este alcatuit din culorile reprezentative, procentajul in regiune, coerenta spatiala a culorilor dominante si variatia culorilor pentru fiecare culoare dominanta. O masura a similitudinii este de asemenea masurii distantei in histograma cuadratica a culorilor este definita pentru acest descriptor. Culorilor reprezentative pot fi indexate intr-un spatiu tridimensional al culorilor, in felul acesta putandu-se evita problemele indexarii dimensiunilor multiple asociate cu histograma traditionala a culorilor. Pentru recuperarea similitudinii, fiecare culoare reprezentativa in fiecare interogare a imaginii sau a regiunii este folosita independent pentru a gasi regiunile continand acea culoare. Potrivirile de la toate colorile interogarii sunt combinate pentru a obtine rezultatele finale. O schema a indexarii eficiente pentru descriptorul culorii dominante este prezentat in [4].
Diferenta dintre descriptorul culorii dominante si descriptorul histogramei culorii consta in faptul ca acele culori representative sunt calculate din fiecare imagine in loc de a fi fixate in spatial culorilor, astfel permitand reprezentarii sa fie exacta, dar si compacta.
Pentru a calcula descriptorul, culorile prezente intr-o imagine sau regiune sunt intai grupate (vezi [4] sau [7] pentru mai multe detalii). Acest lucru duce la un numar mai mic de culori si procentaje culorilor care trebuiesc calculate. Ca o optiune, diferentele de culoare alocate pentru o anumita culoare dominanta, sunt, de asemenea, calculate. Suma procentelor de culori prezente in regiune ar trebui sa dea 1. O valoare a coerentei spatiale este de asemenea calculata, iar aceasta diferentiaza dintre zone mari de culoare si culori care sunt raspandite in toata imaginea. Descriptorul este, prin urmare, definit de:
unde:
a i-lea culoare dominanta;
valoare in procente;
varianta culorii sale.
Varianta culorii este un camp optional. Coerenta este un singur numar care reprezinta omogenitatea spatiala totala a culorilor dominante din imagine. Numarul de culori dominante pot varia de la o imagine la alta si un numar de maxim opt culori dominante pot fi folosite pentru a reprezenta regiunea. Procentajul valorilor este cuantizat la 5 biti fiecare. Cuantizarea culorilor depinde de specificatiile spatiului culorilor, definit pentru intreaga baza de date si nu trebuie sa fie speficifata la fiecare descriptor. Metoda descrisa in [1] pentru extragerea culorii dominante este bazata pe folosirea algoritmului Lloyd generalizat pentru gruparea culorilor. Aceasta problema este formulata ca si una a minimizarii distorsiunii in fiecare cluster i:
unde:
centroidul clusterului
vectorul culorii la pixel
greutatea perceptuala pentru pixelul n
Greutatile perceptuale sunt calculate de la statisticile locale ale pixelui pentru a tine cont de faptul ca perceptia vizuala a oamenilor este mai sensibila la schimbare in regiunile sensibile decat in cele texturizate. Acestei greutatile analizorului perceptiv sunt date de 1. Dezacordul culorilor asociate cu un grup, (si deci culoarea dominanta) este dupa aceea calculata si cuantificata la 3 cifre binare pentru varianta culorilor.
Numarul mediu normalizat al pixelilor conectati pentru culoarea dominanta corespunzatoare folosind o fereastra de mascare de 3 pe 3 masoara coerenta spatiala a unei culori dominante data. Varianta spatiala generala este o combinatie liniara a variantelor spatiale individuale cu procentajele corespunzatoare fiind greutatile. Varianta spatiala este cuantizata la 5 biti, unde 31 inseamna cel mai mare grad de incredere si 1 inseamna lipsa increderii. 0 este utilizat pentru cazurile cand nu este calculat.
In medie culori pe imagine sunt folosite pentru setul de date comune MPEG-7 . Cresterea numarului de biti dincolo de 5 nu a inregistrat imbunatatiri semnificative. In timp ce atribuirea de biti pentru fiecare culoare dominanta a dat o performanta mai buna, a crescut complexitatea. Descriptorul a fost factorul principal in alegerea unei singure valoare a coerentei spatiale.
Fiecare obiect sau regiune in baza de date este reprezentata folosind descriptorul culorii dominante dupa cum a fost definit in (9). Tipic, 3-4 culori dau o buna caracteristica a regiunilor culorilor. Fiind data o interogare a imaginii, intoarcerile de similitudine necesita cautarea in baza de date pentru distributii similarea ale culorilor ca si interogare de baza. Cum numarul de culori reprezentative este mic, putem intai cauta in baza de date pentru fiecare culoare reprezentativa separat, apoi combina rezultatele. Cautarea dupa culori individuale poate fi facuta foarte eficient intr-un spatiu color tridimensional.
Consideram doi descriptori dominanti ai culorilor,
si Ignorand parametrul variantei optionale, si coerenta spatiala, disimilaritatea dintre doi descriptori poate fi calculata ca si:
unde subscriptorii 1 si 2 in toate variabilele stau pentru descrierile F1 si respectiv F2, si ak,l este coeficientul de similaritate dintre doua culori ck si cl
unde
distanta Euclidiana dintre doua culori ck si cl ;
Td - distanta maxima dintre doua culori pentru a fi considerate similare;
dmax =
In particular, aceasta inseamna ca oricare doua culori dominante de la un singur descriptor sunt la cel putin Td distanta departe. O valoare normala pentru Td este intre 10-20 in spatiul culorilor CIE-LUV si pentru α este intre 1.0 - 1.5. Masura disimilaritatii de mai sus este egala cu cu distanta cuadratica masurata care este folosita in mod normal in compararea descriptorilor histogramei de culoare. Aceasta distanta poate fi modificata pentru a tine cont de varianta optionala [2]. Se poate lua atunci o combinatie liniara a coerentei spatiale si distanta de mai sus pentru a da distanta combinata dupa cum e sugerata in [2].
Semantica binara a descrierii culorii dominante specifica 3 biti pentru a reprezenta numarul de culori dominante si 5 biti pentru fiecare valoare procentuala ( cuantizare uniforma a [0,1]). Cuantizarea spatiului culorilor nu este parte din descriptor. Variantele spatiului culorilor sunt codate la 3 biti pe culoare cu o cuantizare neuniforma. Aceasta este echivalent la 1 bit pentru componenta spatiala in spatiile tridimensionale ale culorilor. Rezultatele ANMRR ale CLD sunt date in tabelul IV. Aici, spatiile respectivelor culori sunt cuantizate uniform la 6 biti per valoare a culorii. Rezultatele sunt afisate pentru numere diferite si numere medii ale culorilor dominante folosite. Tabelul V da rezultatele folosind parametrul variantei spatiale si compararea cu descriptorul dc (fara varianta). Aceste rezultate difera intr-un fel de cele din tabelul IV, datorita diferentei spatiului culorilor si cuantizarea folosita in experimente. Trebuie tinut cont de faptul ca unul din obiectivele principale ale descriptorului culorii dominante este sa dea o reprezentare compacta si intuitiva a culorilor izbitoare intr-o zona de interes data. Seturile de date si evaluarile nu reflecta cu acuratete acest obiectiv, si rezultatele date trebuiesc interpretate corespunzator. Pe de alta parte, ele servesc scopului de a identifica diferitele extensii si ca o baza pentru comparari intre descrierile culorilor dominante.
CLD este gandit pentru a captura distributia spatiala a culorii intr-o imagine sau o regiunea de forma arbitrara. Distributia spatiala a culorii constituie un descriptor eficient pentru recuperarea imaginii bazate pe o schita, filtrarea continutului folosind indexarea imaginii si vizualizare. Functionalitatea acestui descriptor poate fi de asemenea atinsa folosind o combinatia a structurii gridului descriptorului si a culorii dominante. Totusi, o asemenea combinatie va avea nevoie de un numar relativ mare de biti, si potrivirile vor fi mai complexe si mai costisitoare. Pentru mai multe aplicatii, un descriptor mai compact si totusi eficient este necesar, iar CLD satisface aceste nevoie.
CLD este un descriptor compact care foloseste culori reprezentative pe un grid de 8x8 urmat de un DCT si o encodare ai coeficientilor rezultati. Procesul de extragere al caracteristicii consista din doua parti; selectia culorii reprezentative bazate pe grid si transformarea DCT cu cuantizare. O poza de intrare este impartita in 64 (8x8) blocuri si culorilor lor medii sunt derivate. Tineti cont ca este implicit recomandat ca media culorilor sa poate fi folosita ca si culoarea reprezentativa pentru fiecare bloc. Acest proces de partitionare este important pentru a garanta invarianta rezolutiei sau a scalei. Media derivata a culorilor este transformata intr-o serie de coeficienti prin transformarea DCT 8x8. Putini coeficienti de joasa frecventa sunt selectati folosind scanarea zigzag si cuantizati pentru a forma CLD. Spatiul culorilor adoptat pentru CLD este YCrCb.
Pentru potrivirea celor doi CLD, si , urmatoarea masura a distantei este folosita:
Aici, (DYi, DCri, DCbi) reprezinta al i-lea coeficient DCT al componentelor respective ale culorilor. Distantele sunt cantarite corespunzator, cu greutatile cele mai mari fiind date componentelor cu frecventele cele mai mici.
Figura 7 arata performanta acestui descriptor pe setul de date ale culorilor mai des folosit si ilustreaza scalabilitatea marimii de bit. Numarul recomandat de biti este 63. Aceasta include sase coeficienti Y, si fiecare 3 ai coeficientilor Cr si Cb. Aceste valori dc sunt cuantizate la 6 biti si restul la 5 biti fiecare. Aceste rezultate demonstreaza ca CLD este destul de eficient in recuperarea imaginii. Rezultatele sunt de asemenea comparate favorabil cu o abordare ca culorii dominante bazate pe un gridm unde imaginea este partitionata si culorile dominante pentru aceste partitii sunt folosite pentru reprezentarea layoutului. Acest descriptor poate fi folosit pentru navigare si recuperare video.
IV. TEXTURA
Textura, ca si culoarea, este un descriptor puternic de nivel jos pentru aplicatii de cautare si recuperare a imaginilor. Primul este referit la "descriptorul de navigare al testurii" si caracterizeaza atributele perceptuale cum ar fi directionalitatea, regularitatea si asprimea texturii. Al doilea, "descriptorul omogen" (HTD) pune la dispozitie o caracterizare cuantificabila a regiunilor omogene a texturii pentru recuperari similare. Este bazat pe calcularea statisticilor locale spatiu-frecventa ale texturii. Ultimul, "descriptorul histogramei locale de margine", este folositor unde regiunea nu este omogena in proprietatile texturii.
A. Descriptorul navigatorului de textura
Acest descriptor compact care necesita doar 12 biti (maximum) pentru a caracteriza regularitatea unei texturi (2 biti), directionalitatea (3 biti x 2) si duritatea (2 biti x 2). O textura poate avea mai multe directii dominante si scale asociate. Pentru acest motiv, specificatia permite un maxim de doua directii diferite si valori ale duritatii.
Regularitatea texturii este gradata pe o scala de la 0 la 3, cu 0 indicand o textura iregulara sau aleatoare. O valoare de 3 indica un model periodic cu o directionalitate bine definita si valori ale duritatii. Aceasta implica o flexibilitate (sau o ambiguitate implicata) in cele doua valori intermediare. Avand o directionalitate bine definita chiar si in absenta unui micro-model perceptabil este considerat mai regulat decat un model caruia ii lipseste directionalitatea si periodicitatea, chiar daca micro-modelele individuale sunt clar identificate ca si in figura 8(c).
Directionalitatea texturii este cuantizata la sase valori, de la 0 la 150 de grade, in pasi de 30 de grade. Textura din figura 8(a) are doua directionalitati puternice verticale si orizontale. Pana la doua directii pot fi specificate. Valoarea "0" este folosita pentru a semnala texturi care nu au nici o directionalitate dominanta, iar restul directiilor sunt reprezentate prin valori de la 1 la 6. Exista cate o componenta a asprimii asociata cu fiecare element. Asprimea este legata de o scala sau o rezolutie a imaginii. Este cuantizata la patru nivele, cu 0 indicand o textura cu granulatie fina, iar 3 indicand o textura dura. Aceste valori sunt de asemenea legate de partitionarea frecventei spatiale (vezi Figura 9) utilizata in calcularea HTD.
Aceste calcule ale descriptorului de navigare sunt descrise in detaliu in [11]. Imaginea este filtrata folosind o banda de scalare si orientare selectiva cu filtre trece banda si iesirile filtrate sunt apoi folosite pentru a calcula coeficientii descriptorului de navigare a texturii. Partea de filtrare a imaginii este similara cu cel pentru HTD (vezi mai jos), iar acestea doua pot fi calculate cu eficienta. Deoarece semantica descriptorului poate fi relatat la perceptia umana a texturii, specificari manuale ale descriptorului sunt posibile.
Acest descriptor este folositor pentru aplicatii de navigare, iar in conjunctie cu HTD poate ajuta in recuperari rapide si coerente ale imaginii. In navigare, orice combinatie de aceste trei componente - regularitate, directionalitate si asprime - poate fi folosita pentru a naviga in baza de date.
De exemplu, ne putem uita dupa texturi care sunt foarte regulate si orientate la 30 de grade. In recuperari similare, descriptorul de navigare a texturilor poate fi utilizat pentru a gasit un set de candidati cu proprietati perceptuale similare si apoi sa foloseasca HTD pentru a gasi o lista de potriviri ale similaritatii precisa printre imaginile vizate.
B. HTD
HTD pune la dispozitie o caracterizare cantitativa a texturii pentru potriviri bazata pe similitudine a imaginii-catre-imagine. Acest descriptor este calculat prin filtrarea initiala a imaginii cu filtre orientate si sensibile la scala, apoi prin calculul mediei si deviatiei standard a iesirilor filtrate in domeniul frecventa. Cercetare anterioara extinsa a acestei proprietati a descriptorului a aratat ca descriptorul este robust, eficient si usor de calculat [1], [5], [8], [10], [17]. In timpul experimentelor MPEG-7 Core, s-a ajuns la concluzia ca poate fi redusa complexitatea computationala a acestui descriptor prin calcularea valorilor in domeniul de frecventa in locul celor din domeniul timp, si o implementare eficienta folosind transformata Radon este descrisa in [18].
Calcularea acestui descriptor este dupa cum urmeaza. Spatiul frecventei este partitionat in 30 de canale cu diviziuni egale in o directie unghiulara (la 30 de intervale) si o diviziune octava in directia radiala (cinci octave), dupa cum e arata in figura 9. Intr-un spatiu de frecvente normalizat W, unde r este indexul unghiular. In directia unghiulara, centrul frecventelor canalelor vecine sunt spatiate cu o octava intre ele, cum ar fi un index radial si W este cea mai mare frecventa centrala. Diferitele canale pot fi numerotate ca si in figura 9.
Canalele caracteristicii individuale sunt modelate folosind functii Gabor bidimensionale. Functiile Gabor sunt gausiene modulate. Transformata Fourier a functiei bidimensionale Gabor in coordonate polare poate fi scrisa ca si:
Pentru banca de filtre utilizate, parametrii
filtrului sunt selectati astfel incat contururile maximului jumatati ale
gausienei bidimensionale ale filtrelor adiacente in directiile radiale si
unghiulare se ating. In directia unghiulara, S are o valoare
Energia texturii imaginii in fiecare canal filtrat este apoi calculata. Tinem cont ca aceasta este echivalenta cantaririi coeficientilor transformatei Fourier ai imaginii cu o gausiana centrata la frecventa canalelor dupa cum a fost definita mai sus. Deviatia energiei este de asemenea calculata. Atat energia cat si deviatia energiei sunt apoi logaritmic scalate pentru a obtine doua numere, ei si di, pentru al i-lea canal al caracteristicii.
HTD este dat de :
Primele doua componente ale vectorului caracteristicii sunt media intensitatii si deviatia standard ale texturii imaginii, respectiv. Detaliile scalarii neliniare si cuantizarii acestor valori pot fi gasite in draftul final al comisiei asupra MPEG-7 [1].
Potrivirii similaritatii: Distanta dintre doua HTDuri este calculata dupa cum urmeaza:
Valoarea recomandata a normalizarii a(k) este deviatia standard ale TDbazeidedate(k) pentru o baza de date data.
Tinem cont ca shiftarea componentelor vectorului caracteristic corespunzator cu valoarea unei scale date este echivalent cu o rotatie in spatiu. Potrivirea invarianta a rotatiei [16] poate fi atinsa prin shiftarea componentelor vectorilor interogarii corespunzator inaintea potrivirii cu inregistrarile bazei de date. In potrivirea a doua modele I si j, minimul distantei dintre vectorul modelului i-lea shiftat si al j-lea vector caracteristic este apoi utilizat ca distanta dintre modelele I si j. Aceasta poate fi scrisa ca si:
unde f=300. Apoi, pentru potrivirea invarianta a rotatiei, distanta este calculata ca si:
Performanta acestui descriptor al texturii este evaluat pe un set de imagini cu texturi mari, alcatuit din imagini din albumul Brodatz [1], imagini aeriale [9] si imagini stas si texturi din Corel. Pentru potrivirea scalarii si rotatiei invariante, imagini aditionale sunt create prin scalarea digitala si rotatia texturilor din seturile de date de mai sus. Un numar total de imagini folosite in Experimentele Core depasesc 10.000. In setul de date Brodatz, cu conditiile experimentale descrise in [10], acuratetea recuperarii este de aproximativ 77%.
Descriptorul histogramei de margine captureaza distributia spatiala a marginilor, intr-un mod asemanator cu CLD. Distributia marginilor este o semnatura buna a texturii, care este folositoare pentru potrivire imagine cu imagine chiar si atunci cand textura nu este omogena. Calcularea descriptorului este destul de directa (vezi figura 10). O imagine data este initial despartita in sub-imagini 4x4, iar histograme locale ale marginii pentru fiecare sub-imagine sunt calculate. Marginile sunt grupate in mare in cinci categorii: verticale, orizontale, 450 diagonale, 1350 diagonale, si izotropice (specific non-orientare). Astfel, fiecare histograma locala are cinci indicatoare corespunzatoare cu cele cinci categorii. Aceste indicatoare sunt cuantizate neuniform folosind 3 biti/ indicator, rezultatul este un descriptor de marime 240 biti [1].
Pentru a calcula histogramele de margine, fiecare din cele 16 sub-imagini este apoi despartita in blocuri de imagine. Marimea acestor blocuri de imagine se scaleaza cu marimea imaginii si este asumata a fi putere a lui 2. Numarul de blocuri de imagine per sub-imagine este pastrat constant, independent de dimensiunile imaginii originale, prin scalarea corespunzatoare a marimii lor. Un detector simplu de margine este apoi aplicat fiecarul macro-bloc, tratand macro-blocul ca o imagine de 2x2 pixeli. Pixelii se intensifica pentru partii de 2x2 ale blocurilor imaginii, care sunt calculate prin medierea valorilor intensitatii ale pixelilor corespunzatori. Detectorul de margine include patru detectori directionali selectivi si un operatori izotropic (figura 11). Aceste blocuri ale imaginii, ale caror puteri ale marginilor depasesc un prag minim, sunt folosite pentru calcularea histogramei.
Astfel, pentru un bloc de imagine, putem calcula cinci puteri ale marginilor, cate una pentru fiecare din cele cinci filtre din figura 11. Daca maximul acestor puteri ale marginilor depaseste un prag prestabilit, apoi blocul imaginii corespunzatoare este considerat a fi un bloc de margine. Un bloc de margine contribuie la indicatorii histogramei de margine. Metoda calcularii marginii este destul de simpla si poate fi aplicata direct la sirurile comprimate de biti MPEG-2.
Fiecare din blocurile imaginii etichetate ca si blocuri de margine contribuie la indicatorul corespunzator al descriptorului histogramei. Aceste valori sunt normalizate la [0,1]. O cuantizare nelineara a acestor indicatori rezulta intr-o reprezentare de 3 biti / indicator.
Potrivirea de similaritate: notati ca exista un total de 80 indicatori, 3 biti/indicator, in histograma de margine. Putem utiliza un numar pe 3 biti ca o valoare intreaga direct si sa calculam distanta L1 dintre cele doua histograme de margine. O performanta usor imbunatatita se obtine daca valorile pe 3 biti sunt decodate folosind tabele bucla.
O variatie interesanta este calcularea unei histograme extinse din cei 80 indicatori [15]. Histograma extinsa este obtinuta prin gruparea blocurilor imagine (si indicatorilor corespunzatori). Indicatorii extinsi sunt histograme globale sau semi-globale. Histograma globala este obtinuta prin combinarea celor 16 blocuri de imagine. Histogramele semi-globale sunt calculate prin aranjarea blocurilor de imagine/indicatori pe randuri (patru randuri), coloane (patru coloane) si in grupuri de 2x2 (cinci grupuri). Aceasta rezulta in cinci indicatori pentru histograma globala si 13x5 pentru histogramele semi-globale din cei 80 de indicatori locali de histograma. Numarul local de indicatori este astfel 150. O masura L1 cantarita, cu o distanta corespunzatoare la indicatorii globali cu o greutate mai mare ca altii, este utilizata pentru a calcula distanta dintre doua histograme de margine. In evaluare, un set de aproximativ 11.000 imagini din colectia MPEG-7 este folosit. Pe acest set de date, ANMRR este de aproximativ 0.34 folosind 80 indicatori de histograma de margine si imbunatatit la 0.30 cand se folosesc histograme extinse. In ambele cazuri, indicatorii sunt reprezentati la 3 biti/indicator.
Descriptorul histogramei de margine este destul de eficient in reprezentarea imaginilor naturale cu aplicatia primara fiind potrivirea imagine-la-imagine. Performanta poate fi imbunatatita suplimentar prin folosirea acestui descriptor in conjunctie cu alte caracteristici ale imaginilor, cum ar fi culoarea [13]. Similar culorii, acest descriptor poate fi folosit in detectia schimbarii scenei si in gruparea cadrelor cheie in video. O limitarea observata a acestui descriptor, spre deosebire de HTD, este ca nu poate fi folosit pentru recuperarea imaginilor bazate pe obiecte.
V. Concluzie
In acest text au fost prezentate detaliile tehnice ale descriptorului culorii si texturii prezent in standardul MPEG-7. Acesti descriptori de culoare include doi descriptori bazati pe histograme, SCD si CSD, descriptorul culorii dominante si CLD. Descriptorii histogramei captureaza distributia globala de culoare unde descriptorul culorii dominante reprezenta culoare dominanta prezenta. CLD captureaza distributia spatiala sau layoutul culorilor intr-o reprezentare compacta. Cat timp standardele MPEG-7 acomodeaza diferite spatii ale culorii, majoritatea descriptorilor culorilor sunt constranse la uma sau un numar limitat de spatii ale culorilor pentru asigurarea inter-operabilitatii.
Descriptorul texturii include un HTD si un descriptor de textura cu histograma de margine. Amandoi acesti descriptori permit cautarea si recuperarea bazata pe descrierea continutului. In aditie, un descriptor compact de navigare a texturii este de asemenea suportat.
Toti acesti descriptori au fost testati riguros si evaluati folosind procedurile MPEG-7 Core Experiments pentru a asigura eficacitatea si eficienta intr-o varietate de aplicatii bazate pe descrieri multimedia ale continutului. Cat timp MPEG-7 standardizeaza doar reprezentarea acestor descriptori, o descriere detaliata a metodelor recomandate pentru extragerea si potrivirea descriptorilor sunt prezentati in documentul vizual XM curent [2] care are scopul de a deveni parte normativa din standardul MPEG-7 ca si Raport Tehnic.
Draftul Final al Comisiei MPEG-7 a fost publicat de curand la timpul scrierii acestui articol [1]. Desi multe din lucrarile tehnice despre descriptori ai culorii si texturii au fost completate, exista unele tehnologii care sunt in diverse stagii de evaluare. Notabil, descriptorii de culoare sunt discutati in acest articol in special pentru imagini naturale si video si vor acoperi necesitatile in mare ale aplicatiilor bazate pe continut al descriptorilor. Totusi, pentru imagini sintetice sau pentru domenii foarte specializate cum ar fi imagini bio-medicale, un rafinament ale acestor descriptori existenti si/sau ai altor descriptori poate fi necesar.
Copyright © 2024 - Toate drepturile rezervate