2026. május 19., kedd - Ivó, Milán

Spamvédelem segít a régi iratok digitalizálásában

2008-08-25 1266

A történelem folyamán az emberiség már többször is megélte, hogy a kollektív kulturális örökségét képező könyvei és szövegei baleset vagy hanyagság miatt megsemmisültek. A szövegdigitalizálás lehetőséget nyújt az írott szöveg folyamatos megőrzésére, széles körben történő terjesztésére, és...

...ezáltal a véletlenszerû rongálódás megakadályozására, de egyben kihívást is jelent a levéltárosok számára. A leginkább veszélyeztetett mûvek ugyanis már annyira sérültek, hogy az automatikus szkennelés és szövegfeldolgozás csak kevés sikerrel kecsegtet. A kutatók azonban most új módszert találtak ki azoknak a szavaknak az azonosítására, amelyeket számítógéppel már nem lehet feldolgozni: ez a szavak CAPTCHA-val történő felismerése.

A CAPTCHA a Completely Automated Public Turing test to tell Computers and Humans Apart rövidítése, ami annyit tesz: teljesen automatizált nyilvános Turing-teszt a számítógép és az ember megkülönböztetésére. A gyakorlatban a CAPTCHA felismeri azokat az eltorzult betûket, amelyek megnehezítik a szöveg értelmezését. Az emberek pedig, akiknek a vizuális felismerő-képessége messze felülmúlja a legjobb számítógépekét is, általában nagyon jól elboldogulnak ezekkel az eltorzított betûkkel. Ezek a tulajdonságok tették a CAPTCHA-t hasznos eszközzé az email-címeket vagy nyilvános üzeneteket veszélyeztető spambotok kiszûrésében (bár a rosszfiúk azóta felzárkóztak).

Azt a Carnegie Mellon kutatói vették észre, hogy a CAPTCHA-k és a beszkennelt szövegek problémás szavai között párhuzam figyelhető meg: a szavak mindkét esetben oly mértékben torzultak, hogy a számítógép nem képes az adott szó felismerésére. Így létrehoztak egy olyan rendszert, a reCAPTCHA-t, amelyben a betûfelismerő szoftver által fel nem ismert, eltorzult szavakat CAPTCHA-kká alakítják. A Science címû tudományos folyóirat legutóbbi száma a módszer sikeréről számolt be.

A szerzők szerint az ember naponta több mint 100 millió CAPTCHA-t képes kezelni. "Ez a mentális teljesítmény igen értékes, mivel a CAPTCHA-k megfejtése olyan feladat, amellyel a számítógép nem tud megbirkózni" - írják. A kutatók automatikus rendszere ezt az értékes emberi tulajdonságot próbálja meg kiaknázni. A beszkennelt szöveget két optikai karakterfelismerő program elemzi; ha az egyik program megtorpan, a kérdéses szót átalakítják CAPTCHA-vá. Ezt aztán egy azonosított kontrolszóval együtt (olyan esetekre, ahol a bot megpróbálja feltörni a CAPTCA-t) a részt vevő weboldalakra továbbítják. Jelenleg több mint 40 ezer oldal használja a reCAPTCHA-t.

A számítógépes programmal végzett azonosítás 0,5 pont értékû, míg az emberi értelmezés teljes pontot ér. Ha egy megadott azonosítás 2,5 szavazatot kap, a szó megfejtettnek tekintendő. Azokat a szavakat, amelyekre az ember folyamatosan ugyanazt a megoldást adja, kontrolszóként használják fel.

A kutatók úgy tesztelték a rendszert, hogy 250, különböző korszakból származó New York Times cikkből véletlenszerûen kiválasztottak egy mintát, ahol minden egyes szó azonosítását két független írásszakértő is megerősítette. Mindegyik OCR-szoftver 84%-os pontossággal dolgozott, de amikor az eredményeket reCAPTCHA-rendszerrel kombinálták, a találati pontosság 99,1 %-ra nőtt. Mindez a profi írásszolgáltatásokon belül, amelyek két független szakértőt használnak másolatok készítésére, amelyeket aztán egy harmadik fél is megvizsgál. A néhány megmaradt probléma abból adódott, hogy az OCR-szoftver nem érzékelte a szótörést.

A szerzők a CAPTCHA-k feltörésére tervezett szoftvert is tesztelték a reCAPTCHA-val készült képekkel szemben, de nem jártak sikerrel. Az eredményt azzal magyarázzák, hogy a szkennelt képek karakterei olyan torzulásokat tartalmaznak, amelyek nem tisztán matematikai átalakításból származnak. A felhasználói válaszidőt is lemérték, de nem volt számottevő különbség a hagyományos rendszereket és a reCAPTCHA-t használó felhasználók válaszideje között.

A rendszernek azonban még mindig vannak korlátai; a rövid szavak felismerése nem elég pontos, az angolt második nyelvként használó országok eredményei és a nem angol nyelvû billentyûzet hibaforrást jelent, a felhasználók pedig nagyon esetlegesen alkalmazzák a nagybetûket, az írásjeleket és a helyesírást. Jó hír a reCAPTCHA-rendszert használó oldalak számára, hogy a felhasználók szeretik, mivel a folyamat sokkal több, mint egy értelmetlen biztonsági intézkedés. Nagyszerû dolog látni, hogy a "kihasználatlan emberi feldolgozó-képesség" alkalmazása miként teszi a processzorokat csupán közremûködővé. 

(Forrás: www.mult-kor.hu)

Hírfigyelő

Kiváncsi, mit írnak a versenytársakról? Elsőként olvasná a szakmájával kapcsolatos információkat? Kulcsemberekre, projektekre, konkurensekre figyelne? Segítünk!

Ez az e-mail-cím a szpemrobotok elleni védelem alatt áll. Megtekintéséhez engedélyeznie kell a JavaScript használatát.

 

 


 

Olvasta?

Tipp

Időrendben

« Május 2026 »
H K Sze Cs P Szo V
        1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31

Tartalom galéria

Teljesítésigazolás: kétmilliárd forintról döntött az MKIK szervezete

Teljesítésigazolás: kétmilliárd forintról döntött az MKIK szervezete

More details
Gourmet Fesztivál, 2026. június 4-7.

Gourmet Fesztivál, 2026. június 4-7.

More details
Idén újra MaReSz Event Touch - 3 in 1!

Idén újra MaReSz Event Touch - 3 in 1!

More details
X Smart Sport Expo és Fitness Fesztivál, 2026. június 14.

X Smart Sport Expo és Fitness Fesztivál, 2026. június 14.

More details
Kövesd nyomon a termékek eredetét: új korszakot nyit az Amway digitális eszköze

Kövesd nyomon a termékek eredetét: új korszakot nyit az Amway digitális eszköze

More details
Tiszta lap a közbeszerzésekben: újra versenyhelyzet és decentralizáció jön?

Tiszta lap a közbeszerzésekben: újra versenyhelyzet és decentralizáció jön?

More details
Ingatlan Regatta + Real Estate Beach Conference

Ingatlan Regatta + Real Estate Beach Conference

More details
Shadow IT, zsarolóvírus, megfelelési kockázat: mit jelent a kiberbiztonság az ingatlanpiacon?

Shadow IT, zsarolóvírus, megfelelési kockázat: mit jelent a kiberbiztonság az ingatlanpiacon?

More details
Elindult a karbonverseny az építőiparban

Elindult a karbonverseny az építőiparban

More details
Az Üzleti Hírszerzés portál kiadója az O|G|H - Open Gates Hungary Kft. - O|G|H - a hír szerzője