Zacznę może od wyjaśnienia, na czym polega system reCAPTCHA.

Otóż zanim powstał reCAPTCHA, istniał system CAPTCHA, stworzony w celu eliminowania botów, które masowo dokonywały rejestracji kont, spamowania forów internetowych itp. Aby temu zapobiegać, wiele serwisów zaczęło zabezpieczać swoje strony internetowe systemem, w którym użytkownik musi rozpoznać znajdujący się na obrazku fragment tekstu – w ten sposób dowodzi, że jest człowiekiem, a nie maszyną. Ponad dwa lata temu naukowcy z Carnegie Mellon University wpadli na pomysł, aby jakoś wykorzystać pracę milionów ludzi, którzy codziennie pracowicie wklepują w klawiaturę tekst z obrazka. W ten sposób powstał reCAPTCHA, służący pomocą w rozpoznawaniu zeskanowanego tekstu.

Programy do OCR, takie jak np. Abby FineReader, bardzo dobrze radzą sobie z tekstem drukowanym, ale rozpoznawanie tekstu pisanego przychodzi im z trudnością, bo, jak wiadomo, każdy z nas ma inny charakter pisma. Poniższy rysunek przedstawia tekst pisany odręcznie oraz ten sam tekst rozpoznany przez program do OCR. atominium_zaprasza_na_bloga,tłumaczenia kraków,narzędzia cat,programy cat,trados,idiom

Aby ułatwić programom do OCR rozpoznawanie pisma odręcznego, naukowcy stworzyli system reCAPTCHA, który sprawdza na ogromnej liczbie użytkowników dane słowo. Jeżeli większość rozpozna słowo tak samo, system wykorzysta automatycznie tę informację przy tłumaczeniu trudno rozpoznawalnych wyrazów.

„Każdego dnia na stronach serwisów korzystających z tego systemu rozwiązuje się ponad 100 milionów testów CAPTCHA i choć każdemu z użytkowników zajmuje to zaledwie kilka sekund, przekłada się na setki tysięcy godzin ludzkiej pracy. Przez pierwszy rok działania systemu rozwiązano łącznie ponad 1,2 miliarda testów, co przełożyło się na odcyfrowanie 440 milionów słów i w konsekwencji ocalenie ponad 17 600 książek.” (http://webhosting.pl )

To właśnie ten system kupiła niedawno firma Google. Myślę, że dobrze się stało – korzystając ze zwykłej poczty gmail, będziemy mogli bezpośrednio przyczynić się do ratowania starodruków, kronik itp. Trzeba przyznać, że chociaż komputery zdolne są do skomplikowanych obliczeń w ciągu ułamków sekund, to nigdy nie zastąpią człowieka – jego wyobraźni, wiedzy oraz doświadczenia.

Zainteresowanych tematem zapraszam na stronę projektu reCAPTCHA

http://recaptcha.net/digitizing.html

image_pdfimage_print

Komentarze

  • Cezary

    Moje oczy odczytują „Atominium zaprasza do czytania blgoa!” Nic na to nie poradzę 😉

    • admin

      Każdy ma odmienny charakter pisma :).I nawet najlepszy algorytm nie będzie tak skuteczny jak OCR na bazie statystyki.Pan rozpoznał to jako blgoa, ale pomimo tego, że tak Pan to widzi to z pewnością pomyślał Pan, że raczej nie chodzi o blgoa tylko o bloga :).
      Maszynka do OCR’u nie jest na tyle inteligentna.Dlatego powstał system reCaptcha, który daje dużo lepsze efekty niż FineReader bo wykorzystuje do tego ludzi.

Call Now ButtonPomożemy w tłumaczeniu.Zadzwoń
Social media & sharing icons powered by UltimatelySocial
LinkedIn
LinkedIn
Share
Instagram
RSS