Falcon OCR to model optycznego rozpoznawania znaków (OCR) opracowany przez Technology Innovation Institute (TII), bazujący na architekturze early-fusion Transformer o rozmiarze 300 milionów parametrów. Specjalizuje się w przetwarzaniu tekstu z dokumentów ręcznie napisanych, zdjęć oraz złożonych układów dokumentów, generując czysty tekst, formuły LaTeX i tabele w formacie HTML. Model osiąga wysoką przepustowość i precyzję, osiągając wyniki 80.3 na benchmarku olmOCR oraz 88.6 na OmniDocBench, przy jednoczesnym zachowaniu kompaktowej struktury.
Falcon OCR
Źródło: huggingface.co



