Francuski programista Mistral AI (LLM) Mistral AI ogłosił wydanie nowego interfejsu API, zaprojektowanego do przetwarzania złożonych dokumentów PDF. Mistral OCR jest API rozpoznawania symbolu optycznego (OCR), z którym każdy dokument PDF można przekształcić w plik tekstowy, aby ułatwić jego przetwarzanie za pomocą algorytmów opartych na sztucznej inteligencji.
Modele językowe, które leżą u podstaw popularnych algorytmów generatywnych, takich jak Openai Chatgpt, działają szczególnie dobrze z nieprzetworzonym tekstem. Dlatego firmy, które zamierzają wprowadzić własne prace i procesy, są świadome znaczenia przechowywania i indeksowania danych w czystym formacie, aby informacje te mogły zostać ponownie wykorzystane w procesie przetwarzania i algorytmów.
W przeciwieństwie do wielu interfejsów API, rozwój Mistral jest multimodalnym interfejsem API, który jest w stanie rozpoznać nie tylko tekst, ale także ilustracje i zdjęcia zamieszczane między blokami tekstowymi. API OCR tworzy ramy restrykcyjne wokół odkrytych elementów graficznych i zawiera je w wyjściu. W wyniku przetwarzania dokumentu PDF za pomocą Mistral OCR sformatowany jest formatowy tekst sformatowany w Markdown, który AI-Algorytmy są traktowane bardziej wydajnie.
„Z biegiem lat wiele dokumentów gromadzi się w organizacjach, często w formacie PDF lub w formie slajdów, które nie są dostępne do przetwarzania LLM, szczególnie w systemach RAG [pobierane generowanie-technika uzyskiwania i wykorzystywania danych jako kontekstu generatywnego i algorytmów]. Dzięki Mistral OCR nasi klienci mogą przekonwertować złożone dokumenty na czytelne treści we wszystkich językach. Jest to najważniejszy krok w kierunku szerokiego wdrożenia asystentów ze sztuczną inteligencją w firmach, które muszą uprościć dostęp do obszernej dokumentacji wewnętrznej ”, powiedział współzałożyciel i dyrektor naukowy Mistral Guillaume Lample.
Mistral OCR jest dostępny na własnej platformie firmy, a także w infrastrukturze partnerów Mistral Cloud, takich jak AWS, Azure itp. Dla firm pracujących z danymi poufnymi lub tajnymi, Mistral oferuje wersję API do lokalnego wdrożenia. Firma powiedziała, że Mistral OCR działa lepiej niż podobne interfejsy API z Google, Microsoft lub Openai. Firma przetestowała API na złożonych dokumentach PDF, w tym zawierających wyrażenia matematyczne, złożone układy i tabele.