Az archiválás és a tömörítés [informatika]

Az archiválás és a tömörítés

Ismertesse az archiválás fogalmát, szerepét, használatát, és használata során elkövetett technikai, gazdasági, optimalizációbeli hibákat! Kapcsolja össze az archiválás és a tömörítés fogalmát! Csoportosítsa a tömörítési eljárásokat, mielőtt az egyes elemekre rátérne, szolgáljon magyarázattal a csoportok kialakulására! A tömörítési eljárások erősségeit, hátrányait foglalja bele a feleletébe, valamint, hogy ezeket hogy lehet kihasználni, illetve orvosolni!

Az archiválás:

Az archiválás tulajdonképpen az adatmentés idegen nyelvű elnevezése. Akkor van rá szükség, ha fontos adatokat akarunk elmenteni, és később esetleg visszaállítani, vagy átellenőrizni.

Az archiválásnak több módozata létezik. Egyrészt a sima lemásolás egy biztonságosabb adathordozóra, vagyis a teljes archiválás, másrészt az inkrementációs adatmentés, amikor elmentünk egy adatmennyiséget, majd később a további mentések során az ehhez képest történt változásokat jegyezzük már csak fel.

Az eszközök is nagyon nagy választékban állnak ehhez a rendelkezésünkre, pl. vannak speciális szalagos egységek, ún. streamerek, vagy cardridgek, amik mágneses kazettákra mentenek. 100 GB-os méret körüliek általában ezek a kazetták, és viszonylag gyorsan olvashatóak, ha adtafolyamként kezeljük őket, de mihelyst keresni kell bennük, nehézségekbe fogunk ütközni. Ha kis adatmennyiségről van csak szó, akkor bőven elegendő optikai tárolóegységeket alkalmazni, amik már véletlen elérésűek, és kellően nagy kapacitásúak, pl. egy kétoldalú, kétrétegű DVD-re kb. 18GB adat elfér, ami szöveges fileok esetén szép mennyiség.

Az archiválási stratégiák mindig a helyzettől függenek. Mindenképpen érdemes a mentett anyagot megőrizni pár hétig, mivel sok hiba csak később tűnik fel, vagy jó, ha visszakereshetjük egy-egy hiba okát. A mai árak mellett egy kazetta 2000 Ft, míg egy DVD 500 Ft, így egyik megoldás sem jár eget rengető kiadásokkal, ha mondjuk minden év, hó és hét elején mentünk a segítségével.

Az archiválás és a tömörítés közel kerülnek egymáshoz, mihelyst nagy adatmennyiségről beszélünk. Fontos, hogy minél kisebb helyen, minél nagyobb adatmennyiséget tudjunk eltárolni. Nagyon sok file egészen apró méretre tömöríthető akár egy egyszerű RAR tömörítővel, s mivel a gépet beállíthatjuk esti műszakban menteni, így nekünk nem gond a pár órás tömörítési munka.

A tömörítés:

A tömörítéskor veszteség nélküli tömörítési eljárást kell alkalmaznunk, mert habár így nagyobb méretűek lesznek a mentések, mégsem veszhet el bármi a tartalomból. Hol alkalmazzuk hát a veszteséges tömörítést?Azoknál a tömörítendőknél, ahol ki lehet használni az emberi érzékelés gyengéit. Ilyen például a képek tömörítése, a hangok tömörítése, illetve a filmek manapság egyre divatosabb tömörítgetése.

A) Veszteség nélküli

Először a veszteség nélküli tömörítést mutatom be, ugyanis erre épül valamilyen szinten a veszteséges is.

A tömörítés azért lehetséges, mert a kódokban gyakran redundancia (ismétlődés) fordul elő, amit teljesen felesleges újra meg újra tárolni. Ez az ismétlődés lehet szöveges fileokban, képekben, gondoljunk csak az alulexponált képeken terpeszkedő nagy fekete foltra körben a fénykép szélén, rosszabb esetben a kis foltra, amiről kivehető, hogy mi az a megörökítendő pillanatból…

A veszteségmentes tömörítésre nagyon sokféle módszert dolgoztak ki. Idő és helyhiány miatt csak párat lesz alkalmam ismertetni:

1. Huffmann-kódolás:

A fájlt feltérképezzük, s az elemeit eltároljuk gazdaságosabb kódtáblában, egy ún. Huffmann-fában, majd ezután a kis kódocskákat használjuk a hosszabbak helyett.

Példa:

Van egy fileunk, amiben 4-féle betű van: a,b,c,d. Ezeket a gépünk alapból 8 biten tárolja. Ez a tárolási mód 256 féle karakterre lett kitalálva, de hát nekünk csak 4 van! Tároljuk hát másképp! Először meg kell, hogy számoljuk, hogy mégis hány van az egyes betűkből. Amelyikből a legtöbb van, az kapja a legrövidebb kódot, amiből a legtöbb, az a leghosszabbat. Ilyen módon most kapja az „a” betű a 00, a „b” a 01, a „c” a 10, a „d” a 11 kódot!

Most mink van? Kettő byte-on tároltuk le a 4 betűnket. A gyengébbek kedvéért példa: eddig az „aaaaabbbccdddd” kód 14 byteon fért el, most már viszont mindössze 14*2 bit, vagyis 3,5 byte! Ezen az örömön túl az eljárás nem járt adatvesztéssel, ugyanis a kitömörítés során az egész sorunkat egy az egyben visszanyerjük!

Példaprogram és pontos leírás: http://www.cs.sfu.ca/cs/CC/365/li/squeeze/Huffman.html

2. LZW-kódolás:

Ez az algoritmus első hallásra bonyolultabb, mint a Huffmann, de lényegesen egyszerűbb a megvalósítása, illetve rettentően gyors, mert nem kell végigstatisztikáznunk a filét. A Huffmannak az is hátránya, hogy a fáját le kell jegyezni a file elejére, ami helyigényes, de az LZW-nél nincs ilyen gond. Ott a kódtábla menet közben épül, mind a tömörítéskor, mind pedig a kibontáskor. A tömörítés során a beolvasott adategységeket egy táblázatba jegyezzük, majd egy saját kódot kapnak. Minden új elemet felveszünk ide, és ha újra találkozunk egy meglévővel, akkor már csak a meglévő kódot kell beírni a betömörített fileba. Ez szép nagy listát eredményez, de mint említettem, ez felépíthető a tömörített adatok beolvasása során is, tehát nem számít.

Példaprogram és pontos leírás: http://www.cs.sfu.ca/cs/CC/365/li/squeeze/LZW.html

3. GIF-kódolás:

Ezt a formátumot képek tömörítésénél alkalmazzák szívesen, főleg az interneten, mivel ott nem gond, hogy a minőség rovására lesz kisebb a kép. A minőségbeli romlás itt a színekben megy végbe. A GIF csak 256 színt használ, tehát minden képpont csak 1 Byte. Az elején megadjuk, hogy melyik 256 színre van szükségünk, így ideális esetben nem is lesz minőségromlás. A legvégén még LZW-kódolást is végez a tömörítő, így még kisebb lesz a kép mérete. Ábráknál, ikonoknál kifejezetten hatékony, és szép. A PNG tulajdonképpen ennek és a JPEG-nek a továbbfejlesztett változata, már nem csak 256 színnel, fraktál alapú tömörítéssel, ami majdem JPEG-hatékonyságot eredményez.

4. APE:

Hangtömörítéshez használt kompromisszumos megoldás, mivel nincs benne veszteség, s így a visszahallgatás szempontjából felesleges részeit is eltárolja a zenénknek, ami nagy fájlméretet eredményez.

B) Veszteséges tömörítő eljárások:

Sokszor bizonyos érzékszervi korlátaink miatt nem szükséges, hogy minden adatot lejegyezzünk, mivel egyáltalán nem fogjuk észrevenni, hogy hiányzanak. Hátrányuk talán az, hogy az egyszer összetömörített anyagokat már nem lehet visszaállítani, és azért talán, mert tulajdonképpen ki akarna mp3-ból újra wav-ot készíteni??? Erre épülő módszerek:

1. JPEG (Joint Photographic Expert Group):

Ez egy képtömörítési eljárás. A képeket 8x8-as négyzetekre bontja, majd ezek elejére lejegyzi a négyzet pontjainak átlagát, így a képpontok már csak az ettől való eltérésükben lesznek meghatározva. A tömörítés hátránya, hogy egymástól nagyon elütő részleteket gyakran összemos, ha a minőséget rontjuk, a tömörítési ráta javára. Azonban nem nagyon látszik ez, ha a minőség nem olyan fontos, és nem kívánjuk nagyítani a képeket képpont méretűre. Nagyon hatékony, és elterjedt, főleg az interneten, és az újonnan bejött fényképezőgépeken. Már megoldották, hogy ne legyen elmosott a kép, mivel lehet állítani a minőséget, s így a veszteség szabályozható. A képpontokat a kockákon belül egy átlósan képzett láncra fűzi az algoritmus, majd az eltérések számítása után egy futamhossz-kódolást is elvégez rajtuk.

2. MPEG:

Régebben Motion JPEG néven futott, mivel képkockánként JPEG-be tömörített filmről volt szó a szabványban. Mára jóval hatékonyabb lett az ún. keyframek használatának bevezetésével. Most bizonyos időközönként teljes képkockákat kapunk a tömörített fájlból, majd a következő kulcsképkockáig csak az előzőhöz képest megváltozott képpontokat írja le az avi fájl. Ezt lehet még fokozni mindenféle fondorlatokkal, a codec-ek hada szolgálja a még hatékonyabb, szebb tömörítést.

Példaprogram és pontos leírás: http://icsl.ee.washington.edu/~woobin/papers/General/node2.html

3. MP3:

A legelterjedtebb hangtömörítési formátum napjainkban. Arra a nagyszerű ötletre alapul, hogy ha szólnak bizonyos frekvenciák, akkor már teljesen felesleges megszólaltatni bizonyos másikakat, mert hát úgysem hallanánk, és így nem hiányoznak. A tömörítésnél figyelembe vették, hogy az emberi fül a mély hangokra jóval érzékenyebb, így azokat részletesebben ábrázolják, mint a magasakat. Az a nagy probléma, hogy a háttérzajt hogyan szűrjék ki, mivel arra aztán egyáltalán nincsen szükség, de nem tudhatja a program, hogy esetleg mi „zörgünk” ilyen csúnyán a gitárunkon, vagy csak a kábel nem volt megfelelően árnyékolva, szóval nem dobja el teljesen a zajt, hanem egy maszkot készít, ami egy átlagolási eljáráshoz hasonlít tulajdonképpen, amit jobb esetben, és magasabb bitrátánál nem veszünk észre. Ezért is olyan kellemetlen hangzásúak az alacsony bitrátájú internetes rádiók

Kérdések:

Mi az archiválás, miért használjuk, és hogyan használjuk, illetve hogyan lenne célszerű használni?
Egy tetszőleges modell felállítása: egy nagy és egy kisvállalat vezetőjének magyarázzuk el, hogy az ő esetében miért alkalmazzon archiválást, és mennyit áldozzon rá! Próbáljunk költséghatékonyak, de előrelátóak lenni!
Mikor van lehetőség veszteségesen tömöríteni, és mikor kell veszteségmentesen (konkrét, és általános példák)?
Az ismert veszteség nélküli tömörítési eljárások bemutatása, elve, alkalmazási területe
Az ismert veszteséges tömörítési eljárások bemutatása, elve, alkalmazási területe
Gyakorlat: A tanuló optimalizáljon egy tömörítetlen képet először fotónyomtatáshoz, aztán pedig internetes oldalra indexképnek! (közben magyarázni kell, mit miért teszünk)
Gyakorlat: A tanuló tömörítsen be 5 különböző típusú fájlt. Az eredeti és a tömörített fájlok méretének arányának a különbözőségét magyarázza meg!

Pontozás:

1	A fogalom ismertetése, magyarázata, valamint példa felhozatala, és abban lévő hiba kijavítására javaslat	1p
2	Laikus számára érthető, a fogalmakat lehetőleg magyarul használó érvelés, magyarázat	1p
3	Itt az emberi érzékelés hiányosságait ismertetni, hozzájuk fűzni a veszteségek megengedésének lehetőségét, s a példákat, majd a veszteség nélküli eljárásoknál az adatvilág hibákat meg nem engedő mivoltával kapcsolatban példákat kell felhozni	1p
4	A felsoroltak közül legalább 2 eljárás részletesebb ismertetése	1p
5	A felsoroltak közül legalább 2 eljárás részletesebb ismertetése	1p
6	A fotónyomtatáshoz a képnek jó minőségűnek kell maradnia, és minél nagyobbnak, az indexképhez pedig át kell méretezni, és a minőséget lejjebb lehet húzni, hogy csökkenjen a méret	2p
7	A fájlok típusukban különbözzenek (pl.: szöveges, adat, zene, videó, tömörített), a magyarázat a tömöríthetőségük különbözőségét magyarázza meg!	1p