2025. szeptember 9., kedd - Ádám

Spamvédelem segít a régi iratok digitalizálásában

2008-08-25 1108

A történelem folyamán az emberiség már többször is megélte, hogy a kollektív kulturális örökségét képező könyvei és szövegei baleset vagy hanyagság miatt megsemmisültek. A szövegdigitalizálás lehetőséget nyújt az írott szöveg folyamatos megőrzésére, széles körben történő terjesztésére, és...

...ezáltal a véletlenszerû rongálódás megakadályozására, de egyben kihívást is jelent a levéltárosok számára. A leginkább veszélyeztetett mûvek ugyanis már annyira sérültek, hogy az automatikus szkennelés és szövegfeldolgozás csak kevés sikerrel kecsegtet. A kutatók azonban most új módszert találtak ki azoknak a szavaknak az azonosítására, amelyeket számítógéppel már nem lehet feldolgozni: ez a szavak CAPTCHA-val történő felismerése.

A CAPTCHA a Completely Automated Public Turing test to tell Computers and Humans Apart rövidítése, ami annyit tesz: teljesen automatizált nyilvános Turing-teszt a számítógép és az ember megkülönböztetésére. A gyakorlatban a CAPTCHA felismeri azokat az eltorzult betûket, amelyek megnehezítik a szöveg értelmezését. Az emberek pedig, akiknek a vizuális felismerő-képessége messze felülmúlja a legjobb számítógépekét is, általában nagyon jól elboldogulnak ezekkel az eltorzított betûkkel. Ezek a tulajdonságok tették a CAPTCHA-t hasznos eszközzé az email-címeket vagy nyilvános üzeneteket veszélyeztető spambotok kiszûrésében (bár a rosszfiúk azóta felzárkóztak).

Azt a Carnegie Mellon kutatói vették észre, hogy a CAPTCHA-k és a beszkennelt szövegek problémás szavai között párhuzam figyelhető meg: a szavak mindkét esetben oly mértékben torzultak, hogy a számítógép nem képes az adott szó felismerésére. Így létrehoztak egy olyan rendszert, a reCAPTCHA-t, amelyben a betûfelismerő szoftver által fel nem ismert, eltorzult szavakat CAPTCHA-kká alakítják. A Science címû tudományos folyóirat legutóbbi száma a módszer sikeréről számolt be.

A szerzők szerint az ember naponta több mint 100 millió CAPTCHA-t képes kezelni. "Ez a mentális teljesítmény igen értékes, mivel a CAPTCHA-k megfejtése olyan feladat, amellyel a számítógép nem tud megbirkózni" - írják. A kutatók automatikus rendszere ezt az értékes emberi tulajdonságot próbálja meg kiaknázni. A beszkennelt szöveget két optikai karakterfelismerő program elemzi; ha az egyik program megtorpan, a kérdéses szót átalakítják CAPTCHA-vá. Ezt aztán egy azonosított kontrolszóval együtt (olyan esetekre, ahol a bot megpróbálja feltörni a CAPTCA-t) a részt vevő weboldalakra továbbítják. Jelenleg több mint 40 ezer oldal használja a reCAPTCHA-t.

A számítógépes programmal végzett azonosítás 0,5 pont értékû, míg az emberi értelmezés teljes pontot ér. Ha egy megadott azonosítás 2,5 szavazatot kap, a szó megfejtettnek tekintendő. Azokat a szavakat, amelyekre az ember folyamatosan ugyanazt a megoldást adja, kontrolszóként használják fel.

A kutatók úgy tesztelték a rendszert, hogy 250, különböző korszakból származó New York Times cikkből véletlenszerûen kiválasztottak egy mintát, ahol minden egyes szó azonosítását két független írásszakértő is megerősítette. Mindegyik OCR-szoftver 84%-os pontossággal dolgozott, de amikor az eredményeket reCAPTCHA-rendszerrel kombinálták, a találati pontosság 99,1 %-ra nőtt. Mindez a profi írásszolgáltatásokon belül, amelyek két független szakértőt használnak másolatok készítésére, amelyeket aztán egy harmadik fél is megvizsgál. A néhány megmaradt probléma abból adódott, hogy az OCR-szoftver nem érzékelte a szótörést.

A szerzők a CAPTCHA-k feltörésére tervezett szoftvert is tesztelték a reCAPTCHA-val készült képekkel szemben, de nem jártak sikerrel. Az eredményt azzal magyarázzák, hogy a szkennelt képek karakterei olyan torzulásokat tartalmaznak, amelyek nem tisztán matematikai átalakításból származnak. A felhasználói válaszidőt is lemérték, de nem volt számottevő különbség a hagyományos rendszereket és a reCAPTCHA-t használó felhasználók válaszideje között.

A rendszernek azonban még mindig vannak korlátai; a rövid szavak felismerése nem elég pontos, az angolt második nyelvként használó országok eredményei és a nem angol nyelvû billentyûzet hibaforrást jelent, a felhasználók pedig nagyon esetlegesen alkalmazzák a nagybetûket, az írásjeleket és a helyesírást. Jó hír a reCAPTCHA-rendszert használó oldalak számára, hogy a felhasználók szeretik, mivel a folyamat sokkal több, mint egy értelmetlen biztonsági intézkedés. Nagyszerû dolog látni, hogy a "kihasználatlan emberi feldolgozó-képesség" alkalmazása miként teszi a processzorokat csupán közremûködővé. 

(Forrás: www.mult-kor.hu)

Hírfigyelő

Kiváncsi, mit írnak a versenytársakról? Elsőként olvasná a szakmájával kapcsolatos információkat? Kulcsemberekre, projektekre, konkurensekre figyelne? Segítünk!

Ez az e-mail-cím a szpemrobotok elleni védelem alatt áll. Megtekintéséhez engedélyeznie kell a JavaScript használatát.

 

 


 

Tipp

Időrendben

« Szeptember 2025 »
H K Sze Cs P Szo V
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30          

Tartalom galéria

Új világrend AI-irányításban? Kína globális mesterséges intelligencia-testületet javasol

Új világrend AI-irányításban? Kína globális mesterséges intelligencia-testületet javasol

More details
Fontos változások a FOXPOST működésében

Fontos változások a FOXPOST működésében

More details
DOGZ - Őszköszöntő Falkaséta, 2025. szeptember 13.

DOGZ - Őszköszöntő Falkaséta, 2025. szeptember 13.

More details
Börgöndi Repülőnap, 2025. szeptember 14.

Börgöndi Repülőnap, 2025. szeptember 14.

More details
Börgöndi Repülőnap, 2025. szeptember 14.

Börgöndi Repülőnap, 2025. szeptember 14.

More details
CineFest Nemzetközi Filmfesztivál, 2025. szeptember 5-13.

CineFest Nemzetközi Filmfesztivál, 2025. szeptember 5-13.

More details
Nagyot nyerhetnek azok, akik jelenleg albérletben élnek

Nagyot nyerhetnek azok, akik jelenleg albérletben élnek

More details
AmfiFeszt, 2025. szeptember 13-14.

AmfiFeszt, 2025. szeptember 13-14.

More details
Giorgio Armani öröksége

Giorgio Armani öröksége

More details
Az Üzleti Hírszerzés portál kiadója az O|G|H - Open Gates Hungary Kft. - O|G|H - a hír szerzője