2026. július 1., szerda - Annamária

Spamvédelem segít a régi iratok digitalizálásában

2008-08-25 1351

A történelem folyamán az emberiség már többször is megélte, hogy a kollektív kulturális örökségét képező könyvei és szövegei baleset vagy hanyagság miatt megsemmisültek. A szövegdigitalizálás lehetőséget nyújt az írott szöveg folyamatos megőrzésére, széles körben történő terjesztésére, és...

...ezáltal a véletlenszerû rongálódás megakadályozására, de egyben kihívást is jelent a levéltárosok számára. A leginkább veszélyeztetett mûvek ugyanis már annyira sérültek, hogy az automatikus szkennelés és szövegfeldolgozás csak kevés sikerrel kecsegtet. A kutatók azonban most új módszert találtak ki azoknak a szavaknak az azonosítására, amelyeket számítógéppel már nem lehet feldolgozni: ez a szavak CAPTCHA-val történő felismerése.

A CAPTCHA a Completely Automated Public Turing test to tell Computers and Humans Apart rövidítése, ami annyit tesz: teljesen automatizált nyilvános Turing-teszt a számítógép és az ember megkülönböztetésére. A gyakorlatban a CAPTCHA felismeri azokat az eltorzult betûket, amelyek megnehezítik a szöveg értelmezését. Az emberek pedig, akiknek a vizuális felismerő-képessége messze felülmúlja a legjobb számítógépekét is, általában nagyon jól elboldogulnak ezekkel az eltorzított betûkkel. Ezek a tulajdonságok tették a CAPTCHA-t hasznos eszközzé az email-címeket vagy nyilvános üzeneteket veszélyeztető spambotok kiszûrésében (bár a rosszfiúk azóta felzárkóztak).

Azt a Carnegie Mellon kutatói vették észre, hogy a CAPTCHA-k és a beszkennelt szövegek problémás szavai között párhuzam figyelhető meg: a szavak mindkét esetben oly mértékben torzultak, hogy a számítógép nem képes az adott szó felismerésére. Így létrehoztak egy olyan rendszert, a reCAPTCHA-t, amelyben a betûfelismerő szoftver által fel nem ismert, eltorzult szavakat CAPTCHA-kká alakítják. A Science címû tudományos folyóirat legutóbbi száma a módszer sikeréről számolt be.

A szerzők szerint az ember naponta több mint 100 millió CAPTCHA-t képes kezelni. "Ez a mentális teljesítmény igen értékes, mivel a CAPTCHA-k megfejtése olyan feladat, amellyel a számítógép nem tud megbirkózni" - írják. A kutatók automatikus rendszere ezt az értékes emberi tulajdonságot próbálja meg kiaknázni. A beszkennelt szöveget két optikai karakterfelismerő program elemzi; ha az egyik program megtorpan, a kérdéses szót átalakítják CAPTCHA-vá. Ezt aztán egy azonosított kontrolszóval együtt (olyan esetekre, ahol a bot megpróbálja feltörni a CAPTCA-t) a részt vevő weboldalakra továbbítják. Jelenleg több mint 40 ezer oldal használja a reCAPTCHA-t.

A számítógépes programmal végzett azonosítás 0,5 pont értékû, míg az emberi értelmezés teljes pontot ér. Ha egy megadott azonosítás 2,5 szavazatot kap, a szó megfejtettnek tekintendő. Azokat a szavakat, amelyekre az ember folyamatosan ugyanazt a megoldást adja, kontrolszóként használják fel.

A kutatók úgy tesztelték a rendszert, hogy 250, különböző korszakból származó New York Times cikkből véletlenszerûen kiválasztottak egy mintát, ahol minden egyes szó azonosítását két független írásszakértő is megerősítette. Mindegyik OCR-szoftver 84%-os pontossággal dolgozott, de amikor az eredményeket reCAPTCHA-rendszerrel kombinálták, a találati pontosság 99,1 %-ra nőtt. Mindez a profi írásszolgáltatásokon belül, amelyek két független szakértőt használnak másolatok készítésére, amelyeket aztán egy harmadik fél is megvizsgál. A néhány megmaradt probléma abból adódott, hogy az OCR-szoftver nem érzékelte a szótörést.

A szerzők a CAPTCHA-k feltörésére tervezett szoftvert is tesztelték a reCAPTCHA-val készült képekkel szemben, de nem jártak sikerrel. Az eredményt azzal magyarázzák, hogy a szkennelt képek karakterei olyan torzulásokat tartalmaznak, amelyek nem tisztán matematikai átalakításból származnak. A felhasználói válaszidőt is lemérték, de nem volt számottevő különbség a hagyományos rendszereket és a reCAPTCHA-t használó felhasználók válaszideje között.

A rendszernek azonban még mindig vannak korlátai; a rövid szavak felismerése nem elég pontos, az angolt második nyelvként használó országok eredményei és a nem angol nyelvû billentyûzet hibaforrást jelent, a felhasználók pedig nagyon esetlegesen alkalmazzák a nagybetûket, az írásjeleket és a helyesírást. Jó hír a reCAPTCHA-rendszert használó oldalak számára, hogy a felhasználók szeretik, mivel a folyamat sokkal több, mint egy értelmetlen biztonsági intézkedés. Nagyszerû dolog látni, hogy a "kihasználatlan emberi feldolgozó-képesség" alkalmazása miként teszi a processzorokat csupán közremûködővé. 

(Forrás: www.mult-kor.hu)

Hírfigyelő

Kiváncsi, mit írnak a versenytársakról? Elsőként olvasná a szakmájával kapcsolatos információkat? Kulcsemberekre, projektekre, konkurensekre figyelne? Segítünk!

Ez az e-mail-cím a szpemrobotok elleni védelem alatt áll. Megtekintéséhez engedélyeznie kell a JavaScript használatát.

 

 


 

Olvasta?

Tipp

Időrendben

« Július 2026 »
H K Sze Cs P Szo V
    1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31    

Tartalom galéria

Vagyonadó: egy kalap alá kerülhet a kivételezett ezer és az őket túlélő több tízezer vállalkozó

Vagyonadó: egy kalap alá kerülhet a kivételezett ezer és az őket túlélő több tízezer vállalkozó

More details
Fesztiválbolt és élményközpont: újabb három éven át Auchan lesz az EFOTT-on

Fesztiválbolt és élményközpont: újabb három éven át Auchan lesz az EFOTT-on

More details
Friss stratégiával, arculattal és új irodával lép szintet a DVM

Friss stratégiával, arculattal és új irodával lép szintet a DVM

More details
Az északi hűsölés az új nyári trend a magyar utazók körében

Az északi hűsölés az új nyári trend a magyar utazók körében

More details
Élethosszig tartó mozgás a „beach body” helyett

Élethosszig tartó mozgás a „beach body” helyett

More details
Gyógyvizes kutyás strandot terveznek Mezőkövesden

Gyógyvizes kutyás strandot terveznek Mezőkövesden

More details
Hadat üzent az építőipari csalóknak egy győri cég

Hadat üzent az építőipari csalóknak egy győri cég

More details
CEE és Ibéria: Európa ipari átalakulásának mozgatórugói

CEE és Ibéria: Európa ipari átalakulásának mozgatórugói

More details
Mennyire használják tudatosan az AI-t a magyar munkavállalók?

Mennyire használják tudatosan az AI-t a magyar munkavállalók?

More details
Az Üzleti Hírszerzés portál kiadója az O|G|H - Open Gates Hungary Kft. - O|G|H - a hír szerzője