Biologie | Chimie | Didactica | Fizica | Geografie | Informatica | |
Istorie | Literatura | Matematica | Psihologie |
CICLUL DE VIATA AL UNUI DOCUMENT
1. Constructia, achizitia
Constructia : reprezinta rezultatul al unui proces intern de lucru, un proces intelectual si tehnologic in urma caruia rezulta un produs de informare si documentare adecvat unei nevoi precise de informare
Achizitia : are in vedere dobandirea, gratuit sau oneros, a unei resurse informationale sau documentare dintr-o sursa externa institutiei ; sursa interna de informare rezultata in urma procesului de constructie a informatiei ; surse neformale
Factorii care influenteaza constructia si achizitia resurselor informationale si documentare :
o Nivelul general de dezvoltare stiintifica, economica, sociala, culturala, etc. Al societatii
o Politicile institutionale si sectoriale
o Resursele materiale, financiare si tehnologice
o Resursele umane si factorul intelectual
o Factori locali si conjuncturali
Activitatile stiintifice si tehnice sunt sursa cunostintelor stiintifice si tehnice care vor deveni odata inregistrate, informatii stiintifice si tehnice. Dar invers, aceste activitati nu exista, nu se realizeaza decat prin aceste informat Produs continuu, reinnoit continuu, informatia nu are alt interes decat sa circule si in plus sa circule liber. Activitatea de cercetare este de fapt aplicarea gandirii unui corp de cunostinte acumulate in timp si depozitate in biblioteci si centre de documentare. Mai mult, prelucrarea acestor cunostinte, posibila dupa punerea lor in circulatie, este sursa descoperirilor stiintifice si a inovatiilor tehnice.
Cresterea informatiilor. Activitatile de cercetare nu au avut intotdeauna nici puterea nici extinderea pe care le-au cunoscut astazi. Pur speculativa la inceput, stiinta nu avea ca menire decat a servi unor dezvoltari tehnice. Devenita experimentala aceasta si-a gasit vocatia: degajarea de cunostinte pentru satisfacerea nevoilor practice, economice[1]. De asemenea, a interesat si intereseaza in cel mai inalt grad guvernele, intreprinderile care au facut in ultima jumatate de secol, o profesiune de credinta din profesia de cercetator: "ceea ce este bun pentru stiinta este in mod necesar bun pentru societate". Sistemul de constructie a cunostintelor este integrat dezvoltarii economice si sociale pana la a da societatilor moderne caracteristicile lor principale. In societatea actuala exista o integrare a stiintei in sistemul de productie. Industrializarea trece prin stiinta si stiinta trece prin industrializare.
Actorii constructiei :
o Comunitatile stiintifice si profesionale
o Institutii stiintifice si de invatamant
o Institutii administrative si alte tipuri de organizatii
o Indivizi independenti de orice tip de structura organizationala
Dincolo de activitatea intelectuala interioara personala, schimbarea suporturilor de inregistrare si difuzare a informatiilor, noile tehnologii de scriere, citire si comunicare modifica procesul de constructie a resurselor informationale si documentare.
Realizarea unui proces intelectual, sub influenta Noilor Tehnologii ale Informarii si Comunicarii (NTIC) presupune mai multe etape (nelineare) corespunzatoare urmatoarelor procese cognitive:
1) Constituirea unui fond de resurse informationale susceptibile a servi la constituirea produsului intelectual final;
2) Activitate intelectuala personala care consta in punerea in relatie a elementelor informationale identificate, ierarhizarea si coroborarea acestor elemente, analiza si evaluarea critica a acestora;
3) Redactarea si prezentarea in forma de document a variantei finale in functie de modul de comunicare ales.
4) Evaluarea si autoevaluarea produsului intelectual obtinut.
Parcurgerea acestor etape intr-un context influentat de NTIC se realizeaza mai mult sau mai putin eficient in functie de nivelul de cunoastere de catre autor a unor tehnici si instrumente informatice adecvate activitatilor de redactare si scriere, adnotare, editare. Evelyne Broudoux prezinta sintetic instrumentele informatice utilizate de comunitatile stiintifice (instrumente individuale si instrumente colective) :
Instrumente individuale de scriere si lectura |
|
Prelucrare de text |
MSWord |
Structurare generica |
LaTeX, XTML, XML |
Gestionarea resurselor informationale proprii si documentare |
Tinderbox, TheBrain, Literary Machine |
Scriere hypertextuala |
Storyspace, Connection |
Instrumente de adnotare personale si colective |
|
Verbalizarea intentiei |
Annot-it |
Partajarea resurselor |
Nestor, K-Web Organizer |
Instrumente de editare web personale si colective |
|
Crearea de site-uri web |
Dreamweaver, Golive |
Scriere Colectiva |
Wiki |
Editarea de site-uri web |
SPIP |
Jurnal rapid |
Weblog |
Internetul determina modificari ale activitatilor stiintifice atat in faza constructiei de informatie cat si in faza de difuzare, de prezentare publica a rezultatelor activitatilor de cercetare. Datorita posibilitatilor de comunicare si de realizare de activitati comune la distanta prin intermediul retelelor, comunitatile stiintifice functioneaza ca niste comunitati virtuale.
Achizitia documentelor este "operatia care permite dezvoltarea si actualizarea fondurilor unei biblioteci, ale unui centru sau serviciu de documentare in functie de natura si obiectivele acestora"[3]. Achizitia documentelor este specifica structurilor documentare care, detin si dezvolta colectiile de documente. Rolul achizitiei este de a procura documente pentru biblioteca, indiferent de suport (documente tiparite, audiovizuale, cartografice etc.).
Achizitia documentelor se realizeaza pe mai multe cai:
- prin cumparare (achizitii cu plata);
- prin schimb de publicatii;
- prin donatii si transfer;
- prin efectul legii depozitului legal.
Achizitia resurselor informationale si documentare in Sistemele de Informare si Documentare (SID) porneste de la analiza comunitatii deservite. Trebuie analizate: tipologia utilizatorilor (populatie urbana sau rurala, studenti sau profesori, un grup mic de specialisti sau o institutie de cercetare etc.); activitatile existente in comunitatea studiata; interesul general, nivelul de educatie, comportamentul comunicational si informational, alte caracteristici ale utilizatorilor. Colectiile trebuie structurate astfel incat sa raspunda nevoilor utilizatorilor.
Aspectele legale, economice, politice, sociale, tehnologice si variabilitatea lor in timp influenteaza structura si continutul unui sistem de informare in decursul existentei sale. Aceste aspecte constituie contextul in care isi desfasoara activitatea un Sistem de Informare si Documentare.
Selectia reprezinta totalitatea proceselor intelectuale si practice ce determina decizia de achizitie a resurselor informationale si documentare.
Selectia consta in stabilirea unor principii de completare a colectiilor; informarea bibliografica asupra productiei editoriale si asupra posibilitatilor de achizitie a altor categorii de documente; selectia propriu-zisa sau decizia ce se achizitioneaza si ce nu.
Colectia de biblioteca este un organism viu si dinamic care pe de o parte se mareste prin achizitia de noi documente iar pe de alta parte imbatraneste si se impun activitati de eliminare, actualizare, acoperire a golurilor, conservare etc.
O politica eficienta, coerenta a dezvoltarii colectiilor si implicit a selectiei are in vedere urmatorii factori:
- factori externi;
- factori interni;
- factorul uman.
Factorii externi sunt acei factori care fara a interveni direct in decizia de selectie, o influenteaza stabilind cadrul larg in care isi desfasoara o biblioteca activitatea. Acestia sunt: contextul social; factorii economic, social, cultural; situatia invatamantului; factorul recreativ.
Factorii interni sunt acei factori care influenteaza direct decizia de selectie. Pentru a se realiza o selectie eficienta este nevoie sa se stabileasca anumite principii si criterii de selectie.
In literatura de specialitate sunt acceptate urmatoarele principii de selectie:
. Completarea este determinata de tipul de biblioteca ;
. Completarea este un proces de crestere si de actualizare a
fondurilor ;
. Completarea este o activitate permanenta si coordonata ;
. Trebuie respectat un raport intre exhaustivitate si selectivitate;
. Volumul si rata completarii trebuie coroborate cu posibilitatile de
stocare, prelucrare si valorificare a documentelor.
Se disting doua tipuri de criterii de selectie:
V. Criterii generale
. tipul de biblioteca (publica sau de invatamant; enciclopedica sau
specializata);
. tipurile de documente ce alcatuiesc colectia;
. limitele bugetului alocat;
. limitele capacitatii de dezvoltare si spatiul de lectura;
. cerintele programelor de invatamant;
. cerintele planului de cercetare stiintifica;
. cerintele de recreare ale populatiei;
. gradul de automatizare al bibliotec
b) Criterii specifice (determinate de calitatea informatiei)
. relevanta documentului fata de profilul colectiilor bibliotecii;
. valoarea intrinseca a documentelor.
Aceasta se poate evalua tinand cont de:
- reputatia stiintifica a autorului sau a editorului;
- prestigiul editurii;
- prezentarile din planurile editoriale;
- recenzii;
- tiraj;
- continuitatea colectiei;
- actualitatea documentului;
- limba documentului.
Factorul uman. Bibliotecile nu pot avea decat o mica parte din publicatiile aparute si de aceea fiecare biblioteca trebuie sa aiba personal specializat pentru a efectua o buna selectie. Personalul care realizeaza selectia trebuie sa se identifice cu interesele utilizatorilor si in egala masura cu cele ale bibliotec Corneliu Dima Dragan afirma ca un bibliotecar care lucreaza in activitatea de selectie trebuie sa posede urmatoarele calitati:
- obiectivitate de critic;
- perspicacitate de sociolog;
- abilitate de bibliograf;
- pricepere de comerciant.
Un bibliotecar trebuie sa se familiarizeze cu toate tipurile de documente care pot fi achizitionate de biblioteca. Ar fi ideal ca personalul bibliotecar care lucreaza la selectie sa aiba cunostinte generale bogate legate de specificul bibliotecii dar si cunostinte bogate legate de un anumit domeniu al cunoasterii umane. In cazul necunoasterii exacte a domeniului se va apela la lucrari de referinta, ghiduri, specialisti, toate acestea contribuind la realizarea unei bune select
Selectia propriu-zisa presupune:
- cunoasterea fondului de carte existent;
- cunoasterea productiei editoriale;
- cunoasterea colectiilor celorlalte biblioteci de pe raza comunitatii deservite;
- cunoasterea resurselor bugetare alocate si a modalitatilor de achizitie;
- cunoasterea cerintelor beneficiarilor.
Intr-un sistem automatizat integrat de biblioteca achizitia documentelor se realizeaza prin mai multe module in functie de modalitatea de completare a colectiei si de tipul de documente.
Achizitia automatizata se realizeaza in general prin doua module distincte si de catre doua departamente din interiorul bibliotec Achizitia ziarelor, revistelor si a altor publicatii periodice se realizeaza prin modulul de control al serialelor aflat in stransa legatura cu modulul in care se realizeaza catalogarea serialelor. Achizitia altor tipuri de documente, exceptand documentele seriale, se realizeaza prin modulul de achizitie.
Distinctia dintre "achizitie" si "controlul serialelor" este rareori neechivoca deoarece in multe biblioteci anuarele sau alte seriale cu aparitie neregulata sunt tratate ca monografi. Dar, atat achizitia serialelor cat si a nonserialelor sunt activitati incluse in dezvoltarea colectivelor si au ca rezultat adaugarea de documente in colectiile bibliotecilor.
2. Prelucrarea
Cantitatea de resurse informationale produse si prezentate in cele mai diverse forme are o dinamica incredibila. Se vorbeste de milioane de unitati informationale in fiecare domeniu al cunoasterii umane: milioane de referinte bibliografice, milioane de compusi chimici, etc. Prin urmare principala problema a informarii stiintifice nu va fi carenta de surse de informare ci dimpotriva, accesul la acestea si mai ales selectivitatea, evaluarea lor. Se impune in prealabil o organizare a acestui imens tezaur informational, stabilirea de criterii si repere care sa permita oricarui utilizator sa identifice informatia necesara si pertinenta in cel mai scurt timp posibil si intr-o forma utilizabila.
Documentul electronic este reprezentarea unui document sub forma unei structuri de date informatice dispusa in memoria unui calculator si transmisibila de la un ordinator la altul. Pentru existenta si utilizarea lui sunt necesare un format de stocare, un format de comunicare, de schimb si un format de restituire. Transformarea unui document in documentul electronic se realizeaza printr-o operatie de digitalizare, de codificare electronica a documentului ca intreg si a tuturor elementelor sale. Structurarea clara a unui document si cunoasterea bineinteles a acestei structuri, constituie un element de baza in prelucrarea lui electronica. Fiecare tip de document, fiecare tip de structura electronica impune o forma particulara de structurare electronica fara insa a depasi un model general.
In prelucrarea electronica a documentelor urmata de difuzarea lor in retea, notiunea de document sursa tinde sa se estompeze. De asemenea, distinctia pe care o fac specialistii in informare intre document primar si documentul secundar, isi pierde din insemnatate. Notita bibliografica a unui document primar cu un continut informativ este generata automat in procesul de regasire .
Un document poate fi compozit avand atat text cat si grafice, tablouri, fotografii etc.De asemenea, poate fi revizuit, poate fi modificat fara a se pastra variantele anterioare sau dimpotriva se pot constitui versiuni succesive indicandu-se accesul atat la versiunea curenta cat si la versiunile anterioare. Un document se poate prezenta intr-o forma dinamica (cazul documentelor multimedia) dar poate avea si o dinamica evolutiva in timp diferita de formele dinamice ale documentului clasic.
Caracteristicile specifice ale fiecarui tip de document au generat metodele diferite de digitalizare a lor, metode ce au tinut seama mai mult sau mai putin de necesitatea unei regasiri rapide si pertinente, de necesitatea unor norme unitare de prezentare si interpretare. Pentru regasirea unei informatii este necesar ca aceasta sa fi fost in prealabil indexata intr-o maniera coerenta si in acord cu o serie de reguli recunoscute (si acceptate). Pentru a identifica un document in integralitatea sa si sub aspectul continutului informational trebuie ca acesta sa fi fost supus unor operatii de catalogare si indexare. Paginile Web, ca de altfel toate documentele electronice, nu fac exceptie de la aceste reguli.
Tinand cont se specificitatea resurselor electronice, de eterogenitatea si instabilitatea lor, de lipsa unor elemente de identificare informatica documentara propune urmatoarele solutii:
- utilizarea in descrierea resurselor a metadatelor (elaborate de gandirea umana);
- indexarea automatizata in text integral, contributia umana fiind prezenta indirect si optional sub forma unor liste sau vocabulare de termeni controlati.
V. Metadatele
Metadatele sunt date despre date ce ajuta la identificarea, descrierea si localizarea resurselor din retea. ADBD si implicit lumea documentara ce o reprezinta, considera metadatele: "informatie secundara referitoare la o sursa electronica" . Singura noutate consta in simulteneitatea crearii resursei electronice si a metadatelor
Exista mai multe tipuri, mai multe modele de metadate corespunzatoare cu diferite nivele de organizare a resurselor, cu necesitatea de a face sa coexiste aplicatii documentare clasice cu aplicatiile Web. Din multitudinea de metadate existente au reusit sa se impuna pana la nivelul de norme, metadatele propuse de Workshop-ul de la Dublin Ohio din martie 1995- DUBLIN CORE -un set initial de treisprezece metadate, (acum sunt cincisprezece) menite sa descrie intr-o maniera suficient de simpla pentru creator, documente Web astfel incat acestea sa poata fi localizate in retea . O inregistrare metadata consta intr-un set de elemente necesare pentru a descrie o resursa informationala. Si fisa dintr-un catalog de biblioteca poate fi considerata intr-un sens larg al notiunii, o inregistrare metadata. Noutatea in cazul resurselor electronice consta in faptul ca metadatele sunt incluse in documentul insusi.
Principiile de baza in descrierea elementelor:
Metadatele sunt incluse intr-un format specific documentelor electronice. Prin urmare continutul lor este structurat in campuri si subcampuri identificate prin etichete sau identificatori: TAG sau Meta Tag.
Fiecare element este optional si repetabil si poate aparea in orice ordine.
a. Element Parte si Sintaxa. Fiecare element descris se defineste prin atribuirea unui nume si a unui continut.
<META NAME="DC .Creator" CONTENT="Eminescu, Mihai">
b. Element Continut si Vocabularele Controlate.
Date de continut pentru unele elemente pot fi selectate din "vocabulare controlate". O terminologie controlata poate imbunatati eficienta si calitatea rezultatelor de cercetare. Pot fi folosite vocabulare specializate existente, cum ar fi de exemplu: "The US Library of Congres Subject Headings (LCSH)" sau se pot construi de catre comunitatile interesate. Importanta utilizarii unei terminologii controlate demonstreaza importanta factorului uman in diseminarea si regasirea informatiei.
c. Elementele Dublin Core
Fiecare element constituie o referinta in descriere, reda un anumit aspect, o fateta a documentului. Tinand cont de aspectele pe care le exprima si de relatiile care se pot stabili intre elemente, acestea pot fi grupate in urmatoarele trei seturi:
Elemente de continut |
|
Titlul |
Numele atribuit unei resurse informationale de catre creator sau editor |
Subiect |
Tema- exprimata de obicei prin cuvinte cheie |
Descrierea |
Un text ce descrie resursa informationala sau rezumatul |
Sursa |
Resurse informationale traditionale sau electronice din care a derivat resursa descrisa |
Limba |
Limba continutului intelectual al resursei informationale |
Relationare |
Conexiunile resursei cu alte resurse informationale |
Acoperire spatio-temporala |
Caracteristicile spatiale si/sau temporale ale resursei informationale |
Elemente de proprietate intelectuala |
|
Creator |
Persoana sau organizatia responsabile de continutul intelectual al resursei informationale |
Editorul |
Entitatea responsabila de disponibilizarea resursei informationale |
Contribuitori |
Persoane sau organizatii (altele decat Creatorul) care au contribuit la realizarea intelectuala a resursei informationale |
Drepturi |
Modalitati juridice de utilizare a resursei informationale |
Elemente de instalare |
|
Data |
Data la care resursa informationala a fost transmisa in retea |
Formatul |
Formatul resursei informationale (fisier pdf, html) |
Tipul |
Tipul de continut: serial, articol, imagine . |
Identificator |
Nr. Sau lantul de caractere care permit identificarea intr-o maniera unica a resursei informationale (URL, ISBN) |
Elementele enumerate au o sintaxa specifica in raport cu schema de codificare (HTML, SGML etc.). Unele informatii se pot repeta in continutul mai multor elemente metadata.
Reprezentarea unui document sub aspect informativ, in acceptiunea clasica pe care o poate avea un utilizator are urmatoarele nivele:
signaletic: elementele generate de document si care permit identificarea si localizarea lui (eliminandu-se ambiguitatile)
analitic: identificarea documentului sub aspectul continutului
referential: referirile la document (intr-o bibliografie sau baza de date prin includerea descrierii singaletice prin conexiuni hypertextuale in mediul Web).
Aceste nivele de reprezentare informativa pot fi considerate metainformatii
Aceasta abordare are menirea de a demonstra ca Dublin Core isi are radacinile in maniera traditionala de descriere a documentelor si ca modalitatile traditionale de structurare a informatiilor (care si-au verificat deja eficienta) pot constitui radacini pentru modalitatile moderne (digitale) de structurare a metainformatiilor. Pe de alta parte, o asemenea abordare ar putea permite delimitarea virtuala a unui subspatiu, a unui subansamblu de resurse utile unei aplicatii, unui domeniu, unei discipline. Spatiul informational poate fi delimitat in micro-structuri. Fiecare micro-structura isi poate construi chei de acces in concordanta cu cerintele utilizatorilor si cu resursele disponibile. Fara a fi un standard (desi este perceput ca atare) Dublin Core Metadata a reusit sa se impuna in utilizare fiind preferat de majoritatea creatorilor de resurse electronice disponibile in retea.
Diversitatea aplicatiilor Web coroborata cu numarul mare de cerinte specifice face ca nici un set de metadate cunoscute sa nu poata fi generalizate, sa nu devina universal valabile. In practica se impune de multe ori adaptarea la situatia concreta a metadatelor sau combinarea mai multor tipuri de metadate.
Consortiul World Wide Web (W3C) creat pentru dezvoltarea de protocoale comune pentru evolutia WWW propune un nou model de metadate si o sintaxa specifica a acestora: RDF-RESOURCE DESCRIPTION FRAMEWORK.
RDF este o platforma pentru descrierea resurselor Web ce asigura interoperabilitatea intre aplicatii de schimburi eterogene de date informationale codificate WWW.
Metadatele RDF pot fi regasite, potrivit afirmatiilor consortiului W3[10] in numeroase domenii de aplicatie:
- in cautarea de resurse informationale permitand un mai mare grad de eficacitate motoarelor de cercetare;
- in listarea continutului si in furnizarea de relatii privind continutul unui site, unei pagini Web sau al unei biblioteci electronice de date;
- in schimbul de informatii prin intermediul programelor agentilor inteligenti;
- in filtrarea continutului;
- in descrierea unei serii de pagini continand un singur document logic;
- in descrierea dreptului de proprietate intelectuala pentru paginile Web.
RDF este rezultatul presiunii concomitente exercitate de mai multe comunitati profesionale, grupuri de cercetare in directia normalizarii a tot ce implica WWW: web standardisation community, library community, structured document community, knowledge representation community. Scopul principal al RDF este de a defini un mecanism de descriere a resurselor, fara o semantica definita, ce poate fi aplicat in orice domeniu.
Concluzii privind metadatele:
Nu exista un set unitar de metadate universal acceptate. S-a impus Dublin Core dar s-au dezvoltat izolat mai multe tipuri de metadate utilizate pentru descrierea unor aplicatii specifice.
Fiecare set de metadate are limite in utilizare. Pentru a putea realiza descrierea tuturor aspectelor unei resurse informationale Web este nevoie de completarea setului cu alte metadate in functie de fateta care se doreste a fi exprimata. Coroborarea tipurilor de metadate a dus la crearea arhitecturii Warwick Framework: un model de grupare a metadatelor menit sa uniformizeze normele de descriere in Web si sa compenseze limitele fiecarui set de metadate.
RDF este platforma de prelucrare a metadatelor: o noua schema si in acelasi timp un nou model pentru metadate. Fiind rezultatul unor presiuni multiple din partea comunitatilor de structurare a documentelor, de reprezentare a cunostintelor, de standardizare Web, a bibliotecilor, RDF incearca sa sintetizeze toate experientele de pana acum si sa furnizeze un nou mecanism de descriere a resurselor Web.
b. Indexarea automatizata
Indexarea automatizata contribuie alaturi de metadate la exprimarea continutului unui document electronic. Volumul mare de informatii difuzat prin reteaua Web face imposibila indexarea umana. Aceasta este posibila in cazuri particulare, prezenta umana fiind simtita intr-un plan secund de concepere a sistemelor de indexare automatizata, de fixarea de repere pentru un limbaj controlat si implicit, o indexare automatizata controlata, de completare a indexarii automatizate.
Principalele aspecte care definesc indexarea automatizata:
Structurarea datelor de indexat. In cea mai mare parte datele se prezinta sub forma textului. Acesta poate fi prezent intr-o forma structurata (cazul documentelor structurate) poate avea o structura slab definita (mari diviziuni de text) fara prea multe elemente de identificare precum articolele dintr-un jurnal - jurnalul ca intreg le completeaza descrierea bibliografica) sau nu prezinta nici o structura particulara(un simplu fisier text).Intr-un proces de indexare automatizata, motorul de indexare parcurge textul integral dar realizeaza totusi o distinctie structurala: datele descriptive (titlu, autor, descriptori etc.) si textul propriu zis.
Volumul de date indexate. Teoretic sistemul de indexare citeste toate paginile, tot textul. In realitate insa nu toate elementele din structura unui text sunt luate in calcul la un nivel echivalent si sunt si elemente ignorate. Luarea in calcul a datelor dintr-un text intr-un proces de indexare automatizata difera de la un sistem de indexare la altul, de la un motor la altul. In general sunt indexate toate elementele descriptive (titlu, metadate, etc.) existand sau nu limite pentru numarul de caractere si corpul textului.
Pot fi indexate toate paginile dar este preferata prima pagina, primul paragraf, paginile de talie mica. Numarul de caractere pentru exprimarea continutului textului poate fi, de asemenea, limitat.
Natura tratamentului efectuat. Indexarea se pate efectua cu ajutorul unui limbaj documentar necesar pentru o normalizare a termenilor sau poate fi o indexare libera, fara utilizarea vreunui suport exterior. Astfel poate fi o indexare automatizata libera: extragerea automata de termeni, eventual acompaniata de un calcul statistic si indexare automatizata controlata: extragerea automata de termeni si confruntarea lor cu un limbaj controlat, eventual fiind necesar si un calcul statistic.
Modele de indexare.
Indexarea documentara traditionala foloseste mai multe modele de indexare ce constituie repere, surse de inspirare pentru indexarea automatizata. Pierre Le Loarer prezinta urmatoarele modele de indexare :
Indexarea plata: nu se face diferentiere intre descriptori; toti au acelasi statut in raport cu documentul si sunt reprezentati la acelasi nivel ierarhic. Are avantajul ca se poate aplica la volume mari de texte dar in acelasi timp este foarte limitata din punct de vedere semantic si genereaza "zgomot" in regasire.
Indexarea ponderata: consta in administrarea unei ponderi, acordarea unei importante unor descriptori pentru a-i diferentia de restul descriptorilor care caracterizeaza continutul. Atribuirea ponderii se realizeaza prin metode de calcul matematic de frecventa. Are avantajul ca diferentiaza descriptorii in principali si secundari si contribuie la filtraj in regasire.
Indexarea fatetata :se bazeaza pe atribuirea unui rol specific unor descriptori in scopul redarii anumitor aspecte, anumitor fatete ale continutului in functie de nevoile concrete ale aplicatiei.
Indexarea structurata :se bazeaza pe diferentierea descriptorilor in principali si secundari si in acelasi timp pe atribuirea unui nivel de importanta pentru fiecare, a unei valori in context si a unei dependente fata de alte notiuni. Permite realizarea unui arbore semantic. Prezinta avantajul ca este o reprezentare semantica foarte bogata putand exprima diferite aspecte vizate de indexator.
Tehnici de indexare automatizata
Procedeul de indexare automatizata consta in recunoasterea descriptorilor dintr-un text si ordonarea lor sub forma unui index in scopul facilitarii regasir Aceasta este reprezentarea foarte simpla a indexarii automatizate. Pentru transpunerea in realitate este insa necesara o tehnica mult mai complicata ce imbina cunostintele informatice, lingvistice, statistico-matematice.
Tehnicile de indexare automatizata au in vedere:
tratamentul lingvistic ce ia in considerare cuvintele si particularitatile lor si functia in text.
tratamentul statistic bazat pe selectionarea termenilor pornind de la un calcul de frecventa.
metode de agregare :clasificarea descriptorilor, crearea automatizata de clase si navigarea intre clase de documente.
reprezentarea structurala posibilitate de adecvare a raspunsului la modalitatea de exprimare a cerer
Tratamentul lingvistic poate fi reprezentat potrivit urmatoarei scheme[13]:
Functii de segmentare
(parametrare in campuri)
Identificarea textelor
Identificarea frazelor
Identificarea cuvintelor
Intrare utilizator Lant brut |
Un sistem de indexare bazat pe tehnici lingvistice necesita pentru functionarea sa conform exigentelor schemei prezentate un ansamblu de instrumente de lucru: dictionare, tezaure si/sau terminologii, reguli gramaticale, instrumente de analiza a structurii si de construire de noi dictionare, terminologii, baze de cunostinte, motoare documentare ce pot exploata capacitatea de reprezentare a sistemelor (mult mai mare decat motoarele ce utilizeaza reprezentarea booleana).
Tehnicile de indexare pe baza de calcul statistic se aplica de obicei textului integral. Acesta poate fi supus sau nu in prealabil unui tratament lingvistic. Scopul principal este acela de a alege cei mai potriviti descriptori pentru reprezentarea efectiva a continutului. Dupa identificarea descriptorilor trebuie specificati cei retinuti pentru indexare. Are loc un proces de "discriminare" a descriptorilor adica o reevaluare a lor ce implica: eliminarea descriptorilor ce au indexat toate documentele (nu prezinta interes intrucat nu permit diferentierea resurselor); aceeasi descriptori au indexat documente cu un continut asemanator; descriptori diferiti fac referire la documente diferite.
Lantul indexarii automatizate intr-o forma sintetica se compune din: stabilirea unui corpus de documente, pretratamentul si decuparea acelui corpus, obtinerea de unitati de analiza grupate intr-un corpus normalizat.[15] Asupra acestuia se realizeaza o analiza lingvistica rezultand matricea de indexat urmata de o procedura de filtraj in functie de valoarea de discriminare si se obtine o matrice de indexare epurata.
Clasificarea descriptorilor rezultati printr-o analiza relationala duce la rezultatul final: un raport de clasificare si documente indexate concomitent cu indexarea categoriei lor adica regruparea fiecarui document intr-un ansamblu de clase in functie de asemanarea continutului lor si implicit de utilizarea unor descriptori comuni.
3. Comunicarea
Comunicarea, transmiterea unui mesaj sau a unei informatii, a fost si este determinata de dimensiunile Timp si Spatiu. Procedeele, tehnicile, mijloacele de constructie, prelucrare, comunicare si utilizare a informatiei se particularizeaza in functie de aspectele spatio-temporale ale informarii si comunicar Inceputul secolului 21 aduce cu sine realizari tehnologice fara precedent care produc mutatii importante la nivelul tuturor palierelor si sectoarelor societatii si cu repercusiuni importante asupra activitatilor umane su asupra individului. Societatea in sine a primit o denumire specifica: Societatea Informatiei.
Internetul, o tehnologie devenita cotidiana si aproape indispensabila, relativizeaza timpul si spatiul ducand chiar la aspecte de despatializare si detemporalizare in informare si comunicare. Internetul, o retea de retele, este o constructie colectiva ce incita la o abordare colaborativa, cooperativa inclusiv pentru activitatile de invatamant si de cercetare. El modifica practicile de utilizare, de timp si spatiu ; reteaua raspunde unei dorinte de libertate ce se caracterizeaza prin crearea, re-crearea unui spatiu public materializat prin punerea gratuita la dispozitia utilizatorilor a numeroase servicii si produse.
Internetul determina modificari ale activitatilor stiintifice atat in faza constructiei de informatie cat si in faza de difuzare, de prezentare publica a rezultatelor activitatilor de cercetare. Datorita posibilitatilor de comunicare si de realizare de activitati comune la distanta prin intermediul retelelor, comunitatile stiintifice functioneaza ca niste comunitati virtuale. Rezultatele activitatii de cercetare, produsul constructiei de informatie se concretizeaza in articole, studii, comunicari stiintifice, carti, brevete, inventii, produse, aplicatii specifice, etc. Rolul comunicarii este de a asigura schimbul de informatii asupra lucrarilor in curs mentinand astfel comunitatile profesionale si stiintifice in contact.
Doua procedeele de comunicare sunt folosite: un procedeu scris, (preponderent formal) si un procedeu oral (preponderent informal).
Comunicarea scrisa se concretizeaza in principal in publicatiile primare atat in forma tiparita cat si in forma electronica. Publicatiile, documentele primare constituie un produs de informare prin care se prezinta rezultatele cercetarilor. Descrierea bibliografica, rezumatul, indexul acestor publicatii primare se regasesc in publicatiile secundare iar semnalarea si prezentarea publicatiilor secundare se realizeaza prin publicatiile tertiare. Astfel, prin acest lant informational se asigura comunicarea rezultatelor cercetarilor stiintifice deci a informatiei de la un nivel general de semnalare pana la continutul propriu-zis si este posibila aprecierea nivelului general al productiei stiintifice.
Dar de ce este necesara comunicarea informatiei? Yves le Coadic afirma[17]:
Pentru a face ca noile date pe care le obtine, noile concepte pe care le formuleaza sa devina contributii stiintifice recunoscute, acestea trebuiau sa fie comunicate sub o forma care sa permita intelegerea si verificarea lor de catre alti cercetatori si ulterior utilizarea lor pentru a deschide alte directii de cercetare. Astfel "comunicabilitatea" este caracteristica majora a unei productii stiintifice pentru ca ea permite recunoasterea cercetatorului de catre colegii sai si ii asigura succesul in comunitatea stiintifica.
Comunicarea orala este constituita din formele publice (conferinte, colocvii, seminare, etc.) si private (conversatii, schimb de mesaje, etc.) de distribuire a informatiilor. Legat de comunicarea orala acelasi Yves le Coadic afirma[18]:
Informatia comunicata pe aceste cai nu are stabilitatea comunicarii realizate pe cai formale. Schimburile de informatii intre doi cercetatori sau specialisti ai unui domeniu in cadrul unei discutii constau in a sonda o idee sau alta legata de un subiect chiar cu riscul de a o modifica. Aceasta informatie este posibil a fi comunicata de mai multe ori. (Astfel in domeniul formal, cercetatorul este limitat de un cod tacit de deontologie si nu poate publica o informatie decat o singura data intr-un singur articol). Evocata prima data in intimitatea laboratorului, informatia este apoi discutata in diferite reuniuni stiintifice de la cele mai mici (reuniuni locale, regionale) la cele mai mari (reuniuni nationale, internationale).
Datorita Tehnologiilor Informatiei si Comunicarii (NTIC) putem asista la videoconferinte transmise in timp real prin reteaua Internet si chiar interveni cu intrebari, observatii, puncte de vedere. Sala de conferinte devine o sala virtuala, fara ziduri. Notiunea timp se relativizeaza nu numai prin transpunerea la scara globala a unei manifestari stiintifice ci si prin conservarea si arhivarea acesteia in forma cea mai autentica (comunicari, dezbateri, interventii, concluzii, etc.) pentru consultari ulterioare (poate chiar la distanta de generatii).
Dintre serviciile de comunicare disponibile in reteaua Internet consideram adecvate activitatilor institutiilor publice si administrative, din punctul de vedere al importantei si frecventei utilizarii, posta electronica, chat-urile, listele de difuzare si forumurile de discutie .
V. Posta electronica
Serviciul de posta electronica cunoscut mai ales prin denumirea « e-mail » este astazi cel mai utilizat serviciu Internet.
Acest serviciu permite un schimb asincron adica pentru a putea comunica nu este necesara prezenta simultana a corespondentilor. Schimburile de mesaje se pot realiza intre doua sau mai multe persoane conectate la Internet. Comunicarile realizate prin intermediul postei electronica au un caracter privat.
Transmiterea de mesaje poate fi insotita si de transmiterea de « documente atasate ». Aceasta inseamna ca este posibila atasarea la mesajul electronic a unui fisier informatic realizat intr-o anumita aplicatie. Programele de posta electronica ofera facilitati de gestionare a comunicarilor scrise. Mesajele primite sau transmise pot fi arhivate, imprimate, pot fi ordonate dupa anumite criter Se poate realiza si o selectie automata a mesajelor la primire in functie de anumite criterii, de exemplu dupa emitator. Functia Copy Carbon (cc) permite transmiterea copiilor unui mesaj uneia sau mai multor persoane. Un mesaj primit poate fi transmis unei alte persoane in forma receptionata sau poate fi modificat, insotit de comentar
Toate motoarele si anuarele de cautare importante pun la dispozitia utilizatorilor servicii de posta electronica gratuite. Citam ca exemple : excite.fr ; lycos.com ; yahoo.com ; nomade.fr ; voilà.fr.
b.Chat-urile
Protocolul International Relay Chat, creat in 1988, a permis dezvoltarea de retele internationale pe care se pot instala canale de conversatie (libere sau controlate de operatori). La inceput sistemul se baza pe simpla defilare a mesajelor pe ecran. Dezvoltarea web a permis aparitia chat-urilor multimedia cu ferestre multiple, aplicatii vizuale si sonore. Chat-urile permit realizarea asa numitelor « discutii in timp real », adica se realizeaza o comunicare sincrona, exista schimbul de replici, intrebarile pot fi urmate imediat de raspunsuri ; se poate constitui un context comunicational ce include caracteristici ale comunicarii orale (dar si ale comunicarii scrise) si care dureaza atata timp cat utilizatorul participa la aceasta forma de comunicare. Chat-urile se remarca prin caracterul public al comunicar
Intrucat chat-urile se bazeaza pe serviciile de posta electronica, motoarele de cautare care au asemenea servicii ofera si servicii de chat. Yahoo.com ; voilà.fr ; excite.fr sunt foarte utilizate pentru comunicari de tip chat. Servicii specializate pe mesagerie electronica precum Hotmail.com, al Companiei Microsoft, dezvolta si servicii de comunicare de tip chat.
Conversatiile se realizeaza pe anumite teme care sunt specificate in pagina gazda. Un utilizator se poate inscrie in categoria dorita si in interiorul acelei categorii poate sa discute cu toti participantii sau poate sa discute cu anumiti utilizatori, programul informatic permitandu-i sa realizeze o asemenea izolare.
c. Listele de difuzare
Serviciile de liste de difuzare se sprijina pe serviciile de posta electronica. Aceste servicii permit abonatilor sa comunice, sa schimbe idei, sa solicite informatii in legatura cu o tema sau un subiect definite in prealabil. Fiecare corespondent primeste in cutia sa electronica de scrisori toate mesajele adresate listelor la care s-a inscris. Listele de difuzare se bazeaza pe comunicare asincrona, mesajele sunt transmise prin retea si se asteapta raspunsul intr-un anumit interval de timp.
Listele de difuzare au un caracter semi-public intrucat mesajele sunt transmise tuturor abonatilor listei, pot fi citite de toti, oricare dintre acestia poate sa-si exprime opinia in legatura cu un mesaj raspunzand emitatorului sau transmitand pur si simplu un mesaj membrilor listei.
d. Forumurile de discutii
Numite si "news group", "usenet" sau conferinte electronice, forumurile de discutii permit participantilor sa schimbe informatii de orice fel in legatura cu diferite subiecte. Contrar principiului postei electronice, informatiile forumurilor de discutii nu trec direct in cutia electronica de mesaje a participantilor ci sunt stocate pe servere accesibile prin Internet. In aceste conditii, orice utilizator interesat se poate conecta la serverul ales si poate consulta interventiile si de asemenea, poate participa la aceste conferinte electronice prin transmiterea, publicarea de mesaje. Se poate astfel vorbi de caracterul public al acestei forme de comunicare. Intr-un forum de discutii comunicarea este asincrona existand un anumit interval de timp intre lansarea unui mesaj si obtinerea unei reactii la acel mesaj. Nu toti participantii sunt conectati in acelasi timp iar mesajele se adreseaza tuturor membrilor potentiali ai forumului.
Anumite grupuri sunt moderate adica toate mesajele transmise ajung in prealabil la un moderator care trebuie sa le aprobe inainte de a le difuza eventual in forum.
Este din ce in ce mai dificil pentru un debutant in comunicarea pe Internet, sa faca diferenta intre e-mailul clasic, o lista de difuzare si un forum de discutii intrucat aceste resurse informationale functioneaza pe baza acelorasi principii : identificarea emitatorului ; identificarea subiectului mesajului, a domeniului de interes (numele listei de difuzare sau a forumului care contine elemente informationale si tema aleasa) ; identificarea precisa a schimbului informational (a indivizilor in cazul postei electronice, a indivizilor intr-un ansamblu de abonati in cazul listelor de difuzare, a site-ului, a mesajului, indivizilor in cazul forumurilor publice) ; definirea continutului mesajului.
Legat de o tipologie a schimburilor comunicationale in cadrul unui forum de discutii si/sau liste de difuzare, distingem urmatoarele trei tipuri principale de activitati si de relatii comunicationale :
o « panou de afisare » ;
o intrebare/ raspuns ;
o dezbateri.
4. Utilizarea
A utiliza informatia inseamna ceea ce se face cu materia informativa pentru a obtine un efect care satisface o nevoie de informare. A folosi un produs de informare inseamna a angaja acel obiect pentru o nevoie de informare, fie ca acel obiect continua sa existe (vorbim atunci de utilizare), se modifica (uzura) sau dispare (consum).
Scopul ultim al unui produs de informare, al unui sistem de informare trebuie sa fie gandit in termeni de utilizare ; care sunt faptele de informare si efectele rezultate din aceste utilizari asupra activitatilor utilizatorilor. Functia cea mai importanta a produsului, a sistemului este deci maniera in care informatia modifica conduita acestor activitati. Acestea trebuie din aceasta cauza sa fie "orientate-utilizator".
Nevoia de informare. Cunoasterea nevoii de informare permite sa se inteleaga de ce oamenii se angajeaza intr-un proces de cercetare de informat Exigenta nascuta din viata sociala, exigenta de cunoastere, de comunicare, nevoia de informare se diferentiaza de nevoile fizice care au rezultat din exigente nascute de natura, exigente de a manca, de a dormi etc.
Ce conduce o persoana la cautarea de informatii? Existenta unei probleme de rezolvat a unui obiectiv de atins si constatarea unei stari anormale de cunoastere, insuficiente sau inadecvate.
Distingem in utilizarea resurselor informationale si documentare utilizatorii si non- utilizator Non-utilizatori sunt persoanele care nu fac niciodata apel la un sistem de informare. Aceasta nu inseamna ca ei nu au nevoie de informare dar ceea ce se incearca a se dovedi este ca nevoia de informare, cand exista, este o nevoie derivata, comandata pentru realizarea unei nevoi mai fundamentale.
Tipologia nevoilor de informare. Doua mari clase de nevoi de informare, ambele derivate din nevoi fundamentale sunt luate in considerare : nevoia de informare privind cunoasterea si nevoia de informare privind actiunea.
Nevoia de informare privind cunoasterea este o nevoie derivata din dorinta de a sti iar nevoia de informare privind actiunea este o nevoie derivata din nevoi materiale comandate prin realizarea de activitati umane, activitati profesionale si activitati individuale.
Lectura este considerata a fi o co-productie intre autor si cititor, primul exprimand structurile sale cognitive iar celalalt interpretand mesajul cu ajutorul propriilor sale structuri cognitive. Dincolo de dimensiunile sale recunoscute (semiotica, psiho-cognitiva, sociala), lectura electronica este afectata de schimbarea suportului si presupune cunoasterea dispozitivelor si instrumentelor informatice utilizate in alegerea unei strategii de lectura.
In contextul informational definit de TIC nu mai putem vorbi de un utilizator, cititor inocent care este capabil sa acceseze un continut informational bazandu-se pe un minim de cunostinte si pe propria intuitie.
A controla sau a stapani informatia presupune un ansamblu de activitati de formare care coexista si se completeaza reciproc: formarea preuniversitara, formarea universitara, formarea continua a adultilor (diferite modalitati de formare si autoformare a utilizatorilor).
Cultura informationala reprezinta un ansamblu de cunostinte teoretice si competente practice care permit identificarea unei nevoi informationale urmata de localizarea, evaluarea si utilizarea informatiei gandite, intr-un demers de rezolvare a unei probleme, de gasire a unui raspuns si comunicarea informatiei retinute si prelucrate.
Cultura informationala sau cybercultura inglobeaza atat aspecte tehnologice si competente specifice cat si ansamblu specific de cunostinte si teorii de informare si are in vedere si impactul ce-l poate avea asupra indivizilor si a domeniului lor de activitate. Cultura informationala este o cultura de sinteza.
Un model clasic de formare a unei culturi informationale are in vedere urmatoarele aspecte:
- cunoasterea structurilor de informare si documentare in principal bibliotecile (localizare, organizare, servicii, oferte);
- formarea in cercetarea de biblioteca (cunoasterea cataloagelor, bibliotecilor, lucrarilor de referinta etc.);
- formarea in utilizarea resurselor informationale (localizarea si exploatarea informatiei indiferent de sursa de informare);
TCI au schimbat instrumentele de lucru, au dus la crearea de noi servicii si produse, au determinat o noua abordare a domeniului si a continutului sau informational. Scopul cercetarii ramane insa acelasi: construirea de sens pornind de la sursele identificate si crearea de produse ce exprima si comunica eficient acel sens, acea semnificatie.
Pentru indeplinirea acestui scop este nevoie ca fiecare individ sa fie capabil :
sa determine si sa defineasca precis nevoia informationala;
sa localizeze eficient sursele de informare;
sa evalueze critic elementele informative si sursele de informare;
sa integreze informatiile selectate in cunostintele sale de baza;
sa utilizeze efectiv informatia pentru realizarea activitatii propuse;
sa inteleaga problemele economice, sociale si legale ce insotesc informatiile si sa foloseasca informatia in mod etic si legal.
Este necesar sa fie cunoscute metodele de producere, prelucrare si regasire a informatiei la care se adauga metodele si tehnicile de baza pentru controlul si utilizarea informatiei.
Ca sistem de informare si comunicare, Internetul prezinta urmatoarele caracteristici : are o structura dispersata ; este eterogen permitand coexistenta a resurse din cele mai diferite , cu grad diferit de efemeritate ; are un caracter public intrucat numeroase spatii de informare si comunicare sunt accesibile de oriunde si in mod gratuit ; este in continua evolutie si deci are o anumita instabilitate zilnic aparand, evoluand sau disparand site-uri.
Amploarea retelei si arhitectura sa fac imposibila realizarea unui inventar exhaustiv a resurselor disponibile. In ciuda ofertelor facute de serverele comerciale nu se poate vorbi de existenta unei strategii unice de regasire a resurselor informationale. Numeroasele instrumente si programe de cautare disponibile se caracterizeaza printr-o specializare mai mult sau mai putin importanta, mai mult sau mai putin adecvata scopului propus. Metodele de adunare si selectare a elementelor informative variaza in limite largi de la un instrument de cautare la altul. Pentru a optimiza o cautare informationala, pentru a gasi cele mai bune surse este necesara o multiplicare a strategiilor de cautare, o coroborare a lor .Paginile gazda ale motoarelor de cautare ofera multiple functionalitati cum ar fi posibilitatile de restrangere a cererii de cautare, o mai mare precizie in exprimarea acesteia, servicii complementare de traducere, selectie de site-uri, abonamente la reviste sau baze de date.
Intelegerea a ceea ce este din punct de vedere fizic Internetul ; cunostinte de baza privind arhitectura si functionarea ; ce este URL ; serviciile de baza;
Cunostinte generale privind panoplia de instrumente ce au fost dezvoltate pentru a facilita cautarea de resurse informationale: roboti, repertorii, motoare, meta-motoare, motoare specializate, agenti inteligenti ;
Recunoasterea tipului de resursa informationala gasita : adresa, program, articol, raport, documentatie comerciala, liste sau forumuri de discutii, bibliografie, etc.
Cunoasterea delimitarilor spatiu public/ spatiu privat in domeniul surselor de informare (nu tot ce se poate gasi pe Internet este gratuit).
Analiza intrebarii se face in functie de sursa si de instrumentul de cautare folosit si are in vedere urmatoarele etape :
Definirea caracteristicilor intrebarii : ce tip de obiect se cauta ? (un server Web, un articol, o adresa, un catalog de biblioteca, etc.) ; in ce spatiu lingvistic ? etc.
Definirea contextului intrebarii : cunoasterea domeniului, a actorilor implicati in construirea unei valori adaugate, institutiile implicate etc.
Punerea in relatie a intrebarii cu un ansamblu de instrumente de cautare si cu sursele disponibile ; luarea in considerare a particularitatilor si a limitelor instrumentelor de cautare.
Formularea intrebar
Aflat in fata Internetului, prima senzatie a utilizatorului care a construit bine o cerere informationala este de abundenta, de multitudine de resurse informationale care ar putea constitui posibile raspunsuri la intrebarile sale. Prin urmare o problema importanta a utilizatorilor nu mai este aceea de acces ci aceea de selectivitate si de evaluare.
Evaluarea unei surse poate incepe chiar inainte de a vedea acea sursa. O prima apreciere a sursei de informare se poate realiza pornind de la notita bibliografica. O notita bibliografica este o descriere dupa norme standardizate a unei carti, articol din periodic sau a oricarui alt material publicat si are in principal urmatoarele trei categorii de date: autorul, titlul, datele de publicare. Aceste elemente sunt utile in determinarea masurii in care o sursa de informare poate fi sau nu utila. Multe din criteriile de evaluare utilizate pentru documentele tiparite pot fi aplicate si resurselor Internet. Deoarece sunt disponibile tot mai multe resurse informationale sunt necesare criterii si competente de evaluare a ceea ce se regaseste.
In cazul bibliotecilor si a altor structuri de informare si documentare, documentele inainte de a ajunge la utilizator au fost supuse intr-o forma sau alta, unor evaluari. Regulile nu mai sunt valabile in cazul WWW. Intrucat fiecare poate scrie o pagina Web, resursele sunt inegale ca valoare. In context Web accentul se pune pe selectivitate si nu pe acces. Sunt anumite criterii care pot fi aplicate in evaluarea surselor de informare indiferent de forma in care acestea se prezinta: tiparita, audio-vizuala sau electronica.
Autorul -este principalul criteriu folosit in evaluarea informatiei .Valoarea unei lucrari este in stransa legatura cu valoarea autorului ei: daca autorul este un nume recunoscut, cu o importanta stiintifica in domeniul sau de cercetare; daca autorul este mentionat (intr-o acceptiune pozitiva) de alt autor in care utilizatorul are incredere ca si competenta; daca documentul Web / Internet citit furnizeaza si informatii biografice despre autor (inclusiv functia,locul de munca ,adresa); daca a gasit documentul printr-o conexiune cu alt document Web /Internet in care are incredere; daca autorul poate fi contactat prin e-mail, etc.
Corpul editorial contribuie mult la aprecierea calitatii informationale a unui document. Inaintea publicarii multe edituri realizeaza o evaluare a lucrarilor din mai multe puncte de vedere:continut stiintific, adecvare cu specificul editurii sau organizatiei editoriale, respectarea standardelor de publicare impuse etc. In lumea Internet, verificarea autoritatii "editorului " se poate realiza: daca numele unei organizatii apare pe document (in antet sau in partea finala), daca exista o mentiune speciala care sa arate ca documentul apartine unei institutii universitare, daca poate fi contactat situl Webmaster al acelui document, daca institutia editoriala este recunoscuta in domeniul stiintific in care studentul isi realizeaza cercetarea, daca se poate stabili exact relatia dintre autor si editor/server, daca se poate verifica identitatea serverului pe care se gasesc documentele, daca pagina Web apartine unui cont personal Internet sau este parte a unui site oficial.
Titlul este un criteriu important in cazul serialelor, putandu-se distinge jurnalele de popularizare de jurnalele stiintifice (recunoscute in comunitatile stiintifice).
Punctul de vedere. Fiecare autor incearca sa-si impuna prin date si elementele informationale prezentate, punctul sau de vedere. Rareori elementele informationale prezentate intr-un studiu sunt neutre. In evaluarea informatiei gasita pe Internet trebuie determinat in primul rand cine a furnizat-o si care este punctul de vedere. Furnizorii (editorii) comerciali si sociopolitici prezinta cele mai "interpretabile" date. Punctul de vedere al unei organizatii sau institutii se rasfrange asupra publicatiilor sale. Trebuie vazut deci, cum este prezentata organizatia detinatoare a Webserverului pe care se gasesc documentele si trebuie facuta distinctia intre reclama, prezentarea politicii organizatiei si datele obiective. In cazul punctelor de vedere partizane, trebuie verificate si opiniile contrare.
Referintele in si la literatura de specialitate arata situarea lucrarii intr-un domeniu stiintific si nivelul de cunoastere al acelui domeniu de catre autor. Trebuie vazut daca documentul are sau nu bibliografie; daca autorul dovedeste cunoasterea teoriilor si tehnicilor considerate de baza in domeniul prezentat; daca prezinta teorii si tehnici noi (si le argumenteaza convingator); daca sunt prezentate subiecte controversate; daca lucrarea este prezenta in bibliografii sau daca este citata ca sursa pentru alte lucrari .
Acuratetea sau verificabilitatea detaliilor constituie un criteriu folosit cu precadere in cazul lucrarilor apartinand unor autori sau organizatii sau in cazul lucrarilor prezentate intr-un mod neconventional. Prezentarea metodelor de cercetare, trimiterea la alte surse( considerate de autoritate), conexiuni cu surse incluse in bibliografie, utilizarea unui background informational ce a fost deja verificat sub aspectul acuratetei pot constitui criterii in selectarea documentelor ce prezinta rezultate ale unor cercetari stiintifice.
Data publicarii si/sau actualizarea. In cazul documentelor tiparite, data publicarii indica noutatea unui continut stiintific[19] .In cazul documentelor electronice (in special Internet) se verifica data publicarii, data actualizarii; daca actualizarea se realizeaza la anumite intervale de timp; daca documentul include data copyrightului .
Gradul de acoperire a subiectului. Important pentru un utilizator care realizeaza o lucrare de cercetare este sa cunoasca in ce masura un document poate prezenta toate aspectele subiectului sau; sa determine aspectele subiectului sau care sunt tratate in documentul gasit ; care este nivelul de profunzime in tratarea subiectului (sau a anumitor aspecte); daca sursa de informare este o sursa primara sau secundara .
Sintetizand se poate aprecia ca un document poate fi utilizat ca sursa de informare daca este semnat si autorul poate fi contactat, daca este publicat sub egida unei instituitii ce poate oferi garantii de autoritate sau pagina Web este dintr-un domeniu precum .edu, .gov , .org; daca punctele de vedere sunt cat mai aproape de obiectivitate si din surse verificabile; daca este actualizat regulat si daca continutul sau este relevant pentru tema de cercetare .
Inregistrarea si organizarea elementelor informationale presupune competente lingvistice dar si logico-cognitive de intelegere a structurii electronice a documentelor, a sistemelor IT. De asemenea, utilizatorii sunt solicitati sa cerceteze in baze de date, sa realizeze o selectie si sa inregistreze documentele selectate (se poate realiza inregistrarea pe dischete dar si telesarjarea sau listarea la imprimanta). Sursele de informare sunt organizate intr-o baza de date personala ce cuprinde implicit si bibliografia .
5. Conservarea - Prezervarea - Arhivarea
O resursa informationala electronica este un ansamblu complex de continuturi informationale structurate intr-un format de document si un program informatic sau o aplicatie (mai multe programe coroborate) care permit functii precum cautarea, afisarea, navigarea, toate stocate pe un suport.
Conservarea, prezervarea, arhivarea documentelor electronice, similar celorlalte tipuri de documente, trebuie sa aiba in vedere:
Obiectiv: Luarea tuturor masurilor necesare pentru evitarea invechirii sau alterarii, uzarii datorita utilizarii lor sau efectelor timpului si a cauzelor naturale (accidentele).
Mijloace: Elaborarea si aplicarea de norme necesare asigurarii conditiilor de climat si microclimat, norme de manipulare si utilizare, norme de reproducere pornind de la resurselor initiale; norme de restaurare etc. (norme particulare in functie de suport sau continut - de ex.recopierea la anumite intervale de timp).
Microclimatul: respectarea unor conditii adecvate pentru temperatura, umiditate, praf, lumina, camp magnetic, etc.
Cunoasterea conditiilor de invechire a suportului (a nivelurilor pentru imprimare de ex.) conduce la stabilirea clara, particulara a procedurilor de prezervare, conservarea, restaurare (si chiar se pot da sfaturi producatorilor pentru a realiza suporturi sau chiar documente ca intreg cu o mai mare longevitate.
Tipologia documentara impune necesitatea de a arhiva documente din cele mai diferite in functie de continut si suport: documente imprimante pe suport hartie, fotografii, filme, documente audio, documente electronice pe suport extern.
Documentele electronice ridica probleme noi in privinta conservarii si arhivarii:
Ce se conserva si arhiveaza suportul sau continutul informational?
Raspunsul: Ambele
Nu s-au sedimentat suficiente experiente pentru a realiza norme care pot fi generalizate.
Nu se stie care este rezistenta in timp a noului suport.
Solutie -trecerea periodica a continutului pe alt suport echivalent sau mai evoluat.
Prezervarea, conservarea, arhivarea, restaurarea documentelor electronice necesita cunoasterea tuturor componentelor tehnice pentru a garanta accesul la continut indiferent de tehnologia utilizata la crearea sau publicarea acestui document (sa fie conservata in perfecta functionalitate o aplicatie si nu numai datele si informatiile utilizate- vezi baze de date).
Cercetari din domeniu Tehnologiei Informatiei si Stiintelor Informarii si Comunicarii isi propun sa dezvolte modele de arhivare pe termen lung a resurselor electronice tinand cont de cele doua tendinte: asigurarea unei durate de viata cat mai lunga a suportului fizic; reinnoirea continua a suportului (trecerea pe un alt suport)
Variante alternative: conservarea, datelor si informatiilor pe suport hartie (suport deja testat in timp); conservarea pe microformate; realizarea de variante electronice de rezerva nesupuse comunicarii (un fel de exemplare de depozit legal).
Obs.:Variantele alternative nu se pot aplica documentelor multimedia
Invechirea suportului - vezi evolutia suportului: de la banda magnetica (anii '80) la CD-ROM, DVD (Digital Versetile Disk) ridica problema compatibilitatii programelor informatice
Preocuparile privind conservarea informatiei electronice dateaza din deceniul 8 si se datoreaza organismelor responsabile cu prezervarea informatiilor produse sub forma prelucrarii de text precum si arhivelor. Prima problema (si cea mai importanta) era fragilitatea suportului (magnetic). La inceputul anilor '90 arhivele impusesera metoda de recopiere periodica a datelor de pe un suport pe altul. Aceasta metoda este eficienta atunci cand informatia este codificata intr-un format independent de platforma hard si soft utilizat la producerea si utilizarea sau cand o versiune superioara a unui program informatic este compatibila cu versiunile precedente.
Suporturile de publicare si arhivare a documentelor electronice au fost initial suporturi magnetice. Acum sunt in principal CD si observam o mutatie spre DVD (Digital Versatile Disk). Acesta din urma permite inmagazinarea unei mari cantitati de date pe un disc de aceeasi marime la aparitia unui nou suport de publicare si arhivare, studii tehnice (contradictorii) anumiti producatori si utilizatori acestuia asupra duratei lui de viata pentru a se putea administra prezervarea informatiilor vehiculate.
CD-sunt utilizate pentru inregistrarea de informatii sonore, vizuale sau aplicatii multimedia dar, de asemenea, sunt foarte utilizate ca suport de arhivare pentru documente electronice de patrimoniu din arhive, biblioteci, muzee sau documente electronice produse de diverse institut Producatorii anunta pentru CD o longevitate intre 75-200 de ani in functie de componentele materiale din structura discului. Nu exista norme stabilite pentru masurarea duratei de viata a unui CD.
Teste efectuate de catre Library of Congres sau Biblioteca Nationala a Frantei au permis unele concluzii privind durata de viata a fiecarui tip particular de CD asigurandu-se astfel reinnoirea continutului informational inainte ca acel disc sa fie inutilizabil. Alta concluzie: conditiile de microclimat influenteaza radical durata de viata a suportului.
Coroborat cu invechirea suportului trebuie evaluata si invechirea tehnologiilor informatice asociate fiecarei resurse electronice.
Componentele hardware, programele informatice, metodele de prelucrare a informatiilor sunt supuse unei uzuri morale rapide (ciclul de viata: 2-5 ani).
Evolutiile tehnologice din ultimul deceniu arata ca informatiile electronice sunt produse in moduri extrem de diverse in functie de continuturile informationale si de programele utilizate (fara a fi asigurate in toate cazurile compatibilitatile).
Doua tehnice sunt propuse ca raspuns la invechirea tehnologiilor:
- migrarea datelor
- emulatia mediilor informatice
Migrarea datelor inseamna transferul periodic al unei resurse electronice de pe un suport pe altul, dintr-un context informatic (continut + program informatic) in altul. Migrarea trebuie sa prezerve integritatea unui obiect digital astfel incat sa poata fi utilizat (cautarea informatiei, afisarea si utilizarea sa fie identice cu cele din timpul initial al producerii resursei informationale). Migrarea datelor implica o reinnoire a suportului dar nu in mod obligatoriu o copie identica ci un continut informational identic intr-un nou context tehnic. Se realizeaza la fiecare schimbare a contextului informatic.
Migrarea datelor are implicatii legale asupra dreptului de modificare a obiectelor digitale care sunt din ce in ce obiecte complexe compuse din elementele subordonate unor regiuni de drept diferite (necesitatea organizarii operatiilor de migrare a datelor la nivel national si international sub o infrastructura cooperativa).
Emulatia consta in coroborarea unui context informatic, asigurarea compatibilitatilor intr-un context informatic. Tehnica emulatiilor aplicata prezervarii pe termen lung a resurselor electronice inseamna ca se incearca definirea unei metode care va permite compatibilizarea sistemelor informatice invechite cu sistemele inca incomplet cunoscute ale viitorului. O asemenea abordare este insa in faza de cercetare.
Consecinta: - eficientizarea costurilor si asigurarea circulatiei informatiei;
- eficientizarea costurilor: emulatia, coroborarea sistemelor informatice face aproape inutila migrarea permanenta a datelor (intr-o cantitate din ce in ce mai mare) la fiecare schimbare a formatelor, a programelor informatice, a materialelor utilizate.
Emulatia contextelor informatice inseamna:
- dezvoltarea de tehnici generalizabile (care includ specificatiile calculatoarelor viitorului) care permit inregistrarea atributelor necesare recrearii comportamentului documentelor actuale si viitoare;
- dezvoltarea de tehnici pentru inregistrarea metadatelor necesare pentru cercetarea, accesul la documente electronice si recrearea lor;
dezvoltarea de tehnici pentru incapsularea documentelor, a metadatelor lor, a programelor informatice si a specificatiilor de emulatie, de compatibilizare in scopul prevenirii alterarii lor.
Caracteristicile documentelor electronice din perspectiva arhivarii acestora. Documentele electronice care sunt prelucrate, stocate si comunicate sunt din ce in ce mai mult documente multimedia cu link-uri hypertext spre alte documente electronice. Fiind cu o structura complexa, pentru un asemenea document electronic este necesar sa fie precizat ce trebuie prezervat; documentul ca intreg (continut informational + aplicatie informatica) sau doar continutul informational.
Se disting urmatoarele caracteristici care asigura integritatea unui obiect cu informatie electronica:
o informatia continuta;
o stabilitatea obiectului;
o referinta obiectului;
o provenienta obiectului;
o contextul obiectului
Toate aceste informatii care conditioneaza integritatea obiectului sunt create si trebuie sa fie prezervate impreuna cu obiectul, pe toata durata lui de viata.
Arhivarea pe termen lung a obiectelor cu informatie electronica are in vedere in principal prezervarea continutului informational, intelectual al unui asemenea document electronic studiile teoretice nu reusesc sa defineasca concret "continutul intelectual al unui obiect cu informatie electronica". Se disting mai multe nivele de abstractizare prin care se poate defini un continut necesar a fi prezervat. La nivel de baza toata informatia electronica este constituita dintr-o succesiune de bits cu valorile 0 si 1 si fiecare obiect se distinge de un altul prin ansamblul exact de succesiune a bitilor continuti. Conservarea informatiei de la acest nivel consta in conservarea exacta a acestei succesiuni de biti.
Standarde si norme pentru documentele electronice stipuleaza regulile de structurare a continutului informatiei ASCII, UNICOD, SGML, XML, HTML - modalitati de incapsulare intr-o structura logica.
Stabilitatea . Prezervarea unui document electronic (a unui obiect cu informatie electronica) nu trebuie sa ia in considerare doar continutul ci mai mult o versiune stabila si fixa a intregului obiect, document care sa nu poata fi modificat fara o identificare precisa si neambigua a versiunilor care se succed in timp. De asemenea, versiunea considerata de baza sau referentiala, principala etc. Poate fi marcata intr-o forma electronica ( un fel de amprenta sau filigran electronic).
Exista si modalitatea de semnalare a variantelor succesive al unui document prin realizarea de notite individuale pentru fiecare schimbare legate de documentul de baza (vezi bazele de date in special bazele de date legislative).
Referinta. Nu este suficient ca un document electronic sa fie prezervat, conservat, arhivat. El trebuie sa fie regasit cu usurinta pentru a-si indeplini menirea de sursa de informare. Pentru documentele traditionale referintele se fac prin bibliografii, dictionare, cataloage, indexuri, instrumente de cautare.
In spatiul electronic este necesar ca referinta sa fie un link activ care sa permita accesul direct la resursa sau un minim de explicatii asupra conditiilor de acces.
Sunt mai multe metode care faciliteaza accesul la obiecte cu informatie electronica:
- sisteme traditionale de descriere dar realizate in context informatizat (de tipul bibliografiilor si cataloagelor electronice) includ un link si o posibila descriere a documentului electronic (campul 856 din formatul MARC);
- Obtinerea de referinte concrete la un document electronic prin includerea elementelor de referinta la sursa intr-o parte distinsa a documentului insusi. Formatul TEI (Text Encoding Initiative) - format in care informatiile descriptive si de identificare sunt incluse in antetul documentului. De asemenea, principiul este intalnit si in cazul metadatelor din formatul HTML.
- URL (Uniform Resource Locator) inclus in HTML in paginile Web sunt coduri de localizare a obiectelor electronice pe un calculator din reteaua Internet. Uniform Resource Locator care este un link spre localizarea fizica a obiectului si care se schimba in momentul localizarii
- URI -Uniform Resource Identification - defineste cadrul general pentru identificarea, numerotarea si localizarea obiectelor electronice pe Web. Acest cadru generic include:
- URN - Uniform Resource Name care este un identificator unic si permanent al resursei care este inregistrata intr-un repertoar (permitand rezolvarea situatiilor in care pentru acelasi nume exista mai multe locatii).
- URC - Uniform Resource Caracteristic care permite asocierea informatiilor cu o identitate si cu anumite conditii de acces la obiectul electronic.
Provenienta - concept de baza al arhivarii moderne si este legat de istoricul unui document.
In contextul electronic, provenienta este strans legata de stabilitatea unui document fiind considerat important stabilirea versiunilor si editiilor multiple ale unui document si de pastrare a urmelor migrarii unui asemenea document; istoricul lantului de conservare al unei resurse de la crearea sa pana la prezervare, conservare, arhivare pentru a asigura autenticitatea obiectului si pentru a garanta integritatea sa.
Obiectul cu informatie electronica este dependent de nivelul sau tehnic la mai multe niveluri:
- contextul tehnic care conditioneaza utilizarea sa;
- este legat de alte obiecte prin link-uri in functie de propriul continut:
- este legat prin vectorul sau de comunicare.
Este dependent pentru crearea si utilizarea sa de un context informatic bidimensional- dimensiunea materiala si dimensiunea logica (constrangerile tehnice si software pentru utilizarea unui document).
Toate aceste constrangeri de utilizare pun probleme pentru conservarea pe termen lung.
Un obiect electronic scris in HTML permit prin link-urile sale deschiderea unui alt obiect situat pe un alt site. A prezenta un asemenea document inseamna a-l prezerva cu toate link-urile continute si cu toate obiectele care se deschis de la aceste link-uri. Aceasta inseamna ca trebuie asigurata periodic o prezervare a ansamblului Web pentru a se asigura implicit prezervarea tuturor obiectelor electronice si a link-urilor care le leaga.
Caracteristicile de comunicare ale obiectelor electronice difera in functie de modul de comunicare off-line sau online. De ex. CD-ROM are propriile formate de organizare a fisierelor diferite de formatele Web.
Rolul prezervarii - garantarea pe termen lung a accesului la informat
Tendinte:
- creatorii, furnizorii, proprietarii de drept au responsabilitatea initiala a arhivarii documentelor electronice si asigura prezervarea lor. Ei pot transfera aceasta responsabilitate (prin acorduri clare) unor sisteme de arhivare care preiau totul sau partial responsabilitatea arhivar Bibliotecile, arhivele pot prelua responsabilitati de arhivare. Avantaje economice de ambele parti si in plus structuri de tipul arhive, biblioteci, muzee pot asigura si accesul si utilizarea informatiilor.
- Bibliotecile nationale evalueaza problemele tehnice si juridice privind colectarea si conservarea publicatiilor electronice din retea. Acestea sunt obligate sa-si indeplineasca misiunea lor de asigurare a mostenirii culturale si intelectuale a unei tari (prin colectarea, prezervarea si conservarea intregii productii culturale si intelectuale a unei tari).
- Comunitati de creatori de continut intelectual (precum cercetatori) precum si diverse institutii (producatoare de arhive tehnice, economice etc.) doresc sa-si organizeze arhivele (pe termen lung) prin resurse proprii sau prin organizatii cooperative independente (accesul la arhive) - legea arhivelor.
Modelul se poate aplica oricarei arhive si in special institutiilor si organizatiilor cu responsabilitati de arhivare pe termen lung. De asemenea, modelul este valabil pentru orice tip de document traditional sau electronic.
Sistemul permite preluarea de informatii de la producatorii de date si asigurarea perenitatii acestora (prelucrare); administrarea arhivelor in acord cu regulile de administrare definite de reglementari generale (drept, tarife, relatia producatori, utilizatori etc.); furnizarea la comanda a datelor si informatiilor diferitilor utilizatori.
6. Contextul actual al editarii electronice
Multiplicarea exponentiala a documentelor electronice pune mai multe probleme:
- Cum se produc si se realizeaza schimburile independent de suport sau de programul informatic?
-Cum se protejeaza dreptul de autor cand o copie electronica se realizeaza cu mare usurinta?
-Cum se regaseste un document anume printre toate cele existente pe web sau in alte surse?
-Cum se arhiveaza aceasta masa documentara?
o Producatorii-consumatorii sunt interesati de acces (vezi multiplele solutii de punere in retea a continutului; multe artizanale)
o Producatorii-comercianti sunt interesati de obtinerea de profituri. (Pentru ei este importanta industrializarea productiei si gasirea modelelor economice adecvate).
o Fiecare grupa a dezvoltat norme si standarde care sa raspunda propriilor obiective.
o Maturizarea tehnologiilor conduce la unificarea standardelor si provoaca apropierea intre actorii implicati
o Regulile traditionale de difuzare a informatiilor (a cunoasterii) au fost bulversate de digitalizare.
Intrebare |
Raspund |
Solutie Tehnica |
Normalizarea formatelor de producere a documentelor pentru o adevarata transferabilitate |
Documente structurate |
eXtensibile Markup Language (XML) Text Encoding Initiative (TEI) |
Comercializarea documentelor electronice si protejarea dreptului de autor |
Identificarea Unica pentru fiecare document |
Digital Object Identifier (DOI) |
Cautarea si regasirea semantica a documentelor |
Prelucrare documentara generalizata: indexare, catalogare |
Metadate |
Arhivare, conservare si acces in timp |
GED GEIDE |
Conditii de stocare, formate de stocare a documentelor electronice, fezabilitatea arhivari documentelor electronice |
Y M.C Bartholy ; J.P. Despin ;G. Grandpierre-.La science - Epistémologie générale . Paris : Magnard, 1978
Evelyne Broudoux. Outils informatique d'ecriture et de lecture : nouvelles conditions au « devenir auteur » https://www.jm.u-psud.fr/~adis/rubriques/p/jdoctic/broudoux.pdf.
Nu inseamna ca toate instrumentele informatice prezentate sunt utilizate obligatoriu de catre comunitatile stiintifice ; autoarea le semnaleaza, le prezinta sintetic aratand importanta si utilitatea lor in cercetarea stiintifica, in elaborarea lucrarilor colective si de autor. Autorii si colectivitatile stiintifice folosesc total sau selectictiv aceste instrumente informatice de lucru in functie de nivelul cunostintelor si competentelor in domeniile informare, comunicare, informatica.
Mircea Regneala. Vocabular de biblioteconomie si stiinta Informa vol. 1. Bucuresti: ABIR, 1995, p. 3
Intr-o alta forma de prezentare decat notita clasica. Elementele componente sunt generate in functie de ecuatia de cautare impusa unui motor de cautare si au la baza informatii din faza de creare de indexare sau regasire a documentului .
nu toate paginile Web, de exemplu , contin data de creare, numele autorului, informatia generica privind continutul sau chiar titlul , sau daca exista intr-o forma ce nu permite regasirea.
"Les metadonnes ne sont qu'information secondaire relative a une ressource electronique". Journee d'etude organisee par l'ADBS, 2 fevrier 1999. Http://www.adbs.fr/adbs/prodserv/jetude/html/pro0202a.htm
Catherine Lupovici Available at: Http://www.adbs.fr/adbs/prodserv/jetude/html/pro0202a.htm
Diferite comunitati stiintifice, tehnice au propus (si utilizeaza) variante de metadate in functie de domeniul lor specific de interes. Asemenea metadate au preluat elemente din regulile clasice de catalogare (ISBD; AACR2) si din formatul MARC (inclusiv din numeroasele sale variante). Un exemplu de metadate pentru un domeniu specific ar fi: Content Standard for Digital Geospatial Metadata (CSDGM) produs de Federal Geografic Data Committee (FGDC).
Dublin Core are in viziunea creatorilor sai, urmatoarele caracteristici:
Simplicitate in creare si intretinere. Setul de elemente DC este atat de restrans si de simplu incat permite si nespecialistilor crearea de inregistrari simple astfel incat sa poata fi reparate intr-un context de retea.
Semantica accesibila usor de inteles. Semantica elementelor a fost stabilita prin consens international de un grup inter-disciplinar ce a reunit profesionisti din biblioteconomie, stiinta informarii, domeniul calculatoarelor, specialisti in codificarea datelor, profesionisti din comunitatea muzeala si din alte domenii ale cunoaster Rezultatul: o semantica simpla, aproape internationala ce poate depasi cu usurinta barierele lingvistice.
Scop international. Desi s-a initiat si dezvoltat in context anglofon si in limba engleza, au aparut versiuni in numeroase limbi. Pasul urmator ar fi ca fiecare comunitate lingvistica reprezentativa sa asimileze modelul Dublin Core Metadata.
Extensibilitatea. Balansand intre nevoia de simplicitate in descrierea resurselor electronice si nevoia de regasire precisa, Dublin Core are in vedere adaugarea altor elemente care sa constituie un set de metadate util pentru descrierea de resurse specifice unor anumite aplicat
DUBLIN CORE Metadata Initiative Documents Http://purl.org/dc/documents/wd-guide-current.htm
Comunique de presse: le Consortium World Wide Web (w3C) met a disposition du public la premiere version du texte de RDF (resource Description Framework) un platforme de description de ressources. 7 oct. 1997. Available at : Http://www.inria.fr/IneDit/pre49-frq.html
Concernul W3C precizeaza ca activitatea privind metadatele se concentreaza pe urmatoarele domenii specifice:- RDF, un model de metadate si o sintaxa specifica; un limbaj dedicat scrierii de scheme RDF; un limbaj dedicat expresiilor si regulilor de prelucrare (filtre, preferinte, profile in diverse aplicatii) pentru utilizaraea de formule RDF; un limbaj dedicat expresiilor dintr-o cerere generala pentru informatii RDF; un algoritm dedicat adaptarii RDF la o semnatura electronica; o sintaxa dedicata pentru o structura electronica RDF; un vocabular care sa permita traducerea de etichete PICS[11] in RDF si un algoritm de conversie plecand de la PICS- Platform for Internet Content Selection.
In cadrul platformei RDF se dezvolta urmatoarele modele de descriere a resurselor electronice:
1. Modelul RDF de baza este un model pentru reprezentarea asa numitelor proprietati (atribute) si a valorilor atribuite acestora. Acest model are in vedere trei obiecte tip:
Resursele: orice lucru ce poate fi descris utilizand RDF poate fi numit resursa: o intreaga pagina Web, o parte dintr-o pagina, o colectie de pagini, un intreg site Web.
Proprietati: aspecte specifice, caracteristice, atribute sau relatii folosite pentru a descrie o resursa.
Statut: o proprietate de o anumita valoare si valoarea data de acea proprietate unei resurse specifice.
Modelul RDF de baza propune o sintaxa concreta necesara pentru crearea si schimbul de metadate. Sintaxa RDF este definita in acord cu regulile de codificare XML.
2. Modelul container este folosit in cazul in care este necesara reprezentarea unor colectii de resurse (de exemplu lucrari create de mai multe pesoane, liste de persoane fiecare cu o activitate proprie, aplicatii sub forma de module etc.) Tipurile de obiecte avute in vedere de acest model sunt:
Grup: o lista neordonata de resurse. Poate fi considerata o proprietate cu mai multe valori (ce pot fi repetabile)
Secventa: o ordonare a listei de resurse; criteriul ce impune aceasta ordonare (de exemplu pastrarea unei ordini alfabetice sau cronologice). Altfel spus, se atribuie anumite semnificatii valorilor ce definesc resursele (prin proprietatile lor).
Alternativa : o lista a resurselor ce constituie o alternativa la o lista rezultata din atribuirea si utilizarea unui criteriu. De fapt, o noua lista rezultata din atribuirea altui criteriu (de exemplu atribuirea pentru reordonarea unei liste a criteriului lingvistic).
In modelul container apare si notiunea de referential avand menirea de a preciza statutul fiecarei resurse sau grup de resurse. De exemplu, o lista de resurse intr-o forma ordonata poate fi considerata secventa sau alternativa intr-o functie de referentialul ce a impus utilizarea unui anumit creiteriu de ordonare.
3.Modelul statut permite o ordonare a resurselor in asa fel incat sa poata fi regrupate dupa proprietati: modelul statut deriva din modelul RDF de baza. Elementele pe care le are in vedere sunt:
Subiect: resursa descrisa in modelul de baza;
Predicat: proprietatea resursei din modelul de baza;
Obiect: o alta resursa sau data identificata in modelul de baza si care a permis definirea statutului resursei din acel model.
Tipul: proprietatile si valorile atribuite noii resurse (elementele dupa care se poate face regruparea). O noua resursa cu cele patru proprietati enumerate, derivate din statutul original poate fi folosita ca obiect pentru un alt model statut permitand astfel aditionarea, agregarea de resurse.
4. Modelul formal RDF permite gruparea elementelor in seturi si reprezentarea lor in forme simplificate in XML, in grafuri sau ca "triples" de forma: predicat, subiect, obiect. De fapt modelul formal incearca sa sintetizeze modelele prezentate anterior . RDF poate fi definit intr-un model formal in felul urmator:
- setul Resurse
- setul Literals
subsetul Proprietati apartinand setului Resurse
Resource Description Framework (RDF)- model and syntax Specification: W3C Working 8. Oct. 1998 Available at: Http://www.w3.org./TR/1998/Wd-rdf-syntax-19981008
-setul Statut, in care fiecare element este un triplet de forma: predicat, subiect, obiect (si in care predicatul este o proprietate din subsetul proprietatii, subiectul este o resursa din setul resursei iar obiectul poate fi o resursa sau un literal).
Pierre Le Loaren . Indexation automatique, recherche d'information et evaluation. In : Le traitement électronique du document. Cours INRIA, Aix-en-Provence ,3-7 octombre, 1994,. Paris : ADBS, 1994, ISBN : 2-901046-76-2, p-149-203.
Tehnicile de indexare statistica pot fi reduse la trei categorii:
Ponderea prin frecventa inversa a documentelor tine cont de importanta termenului intr-un document si de importanta termenului intr-un ansamblu de documente dintr-o baza documentara. Importanta termenului este data de frecventa inversa a numarului de documente indexate prin acel termen adica un termen este considerat bun ca descriptor daca apare frecvent intr-un numar mic de documente.
Ponderea prin calculul raportului semnal/zgomot. Ideea de baza este ca importanta unui mesaj este cu atat mai mare cu cat sunt mai mici sansele ca el sa apara intr-o solicitare.
Ponderea prin valoarea de descriminare: consta in definirea valorii de descriminare a unui termen intr-o baza documentara concomitent cu aplicarea unui procedeu de cosinus (Cosinus Gerald Salton, cosinusul unghiului format de vectorii a doua documente).Apud : Pierre Le Loaren, op.cit.
Se observa ca indexarea automatizata este o operatie complexa ce necesita o abordare multidisciplinara si o suita de etape in derulare fiecare cu particularitati, cu restrictii si dependenta de rezultatul operatiei din amonte. Indexarea automatizata se realizeaza intr-o structura de lant in care fiecare za are o importanta maxima in obtinerea unui rezultat coerent ce poate fi suport pentru regasire. Un proces de indexare automatizata presupune concomitent o abordare lingvistica, o abordare statistica, o abordare structurala. Ca orice alta activitate , indexarea automatizata are avantaje si dezavantaje. Dintre avantaje se remarca: productivitatea ridicata cu un cost mai scazut decat indexarea umana (intr-un context cu o crestere extraordinara a masei informationale se impune ca o solutie unica); uniformitate in indexare (in absenta subiectivitatii relative a factorului uman). Dintre limite nu trebuie ignorate: tratamentul dificil al polisemiei, al solutiilor de analiza in context si tendinta de a genera prea multi descriptori pentru index; dificultate in circumscrierea precisa a unui document.
Copyright © 2024 - Toate drepturile rezervate