phhsnews.com


phhsnews.com / Extrait du texte à partir de fichiers PDF et Image

Extrait du texte à partir de fichiers PDF et Image


Vous avez un document PDF dont vous souhaitez extraire tout le texte? Qu'en est-il des fichiers image d'un document numérisé que vous souhaitez convertir en texte modifiable? Ce sont quelques-uns des problèmes les plus courants que j'ai vus sur le lieu de travail lorsque je travaille avec des fichiers.

Dans cet article, je vais parler de plusieurs façons différentes d'essayer d'extraire du texte à partir d'un fichier PDF ou d'une image. Les résultats de l'extraction varient en fonction du type et de la qualité du texte du fichier PDF ou de l'image. En outre, vos résultats varient en fonction de l'outil que vous utilisez, il est donc préférable d'essayer le plus grand nombre possible d'options ci-dessous pour obtenir les meilleurs résultats.

Extrait du texte de l'image ou du PDF

Le moyen le plus simple et le plus rapide de commencer est d'essayer un service d'extraction de texte PDF en ligne. Ceux-ci sont normalement gratuits et peuvent vous donner exactement ce que vous cherchez sans avoir à installer quoi que ce soit sur votre ordinateur. En voici deux que j'ai utilisés avec des résultats très bons à excellents:

ExtraitPDF

ExtractPDF est un outil gratuit pour saisir des images, du texte et des polices sur un fichier PDF. La seule limite est que la taille maximale pour le fichier PDF est de 10 Mo. C'est un peu petit; Donc, si vous avez un fichier plus gros, essayez quelques-unes des autres méthodes ci-dessous. Choisissez votre fichier, puis cliquez sur le bouton Envoyer le fichier . Les résultats sont normalement très rapides et vous devriez voir un aperçu du texte lorsque vous cliquez sur l'onglet Texte.

C'est aussi un avantage supplémentaire que d'extraire des images du fichier PDF, juste au cas où vous en auriez besoin! Dans l'ensemble, l'outil en ligne fonctionne très bien, mais j'ai rencontré quelques documents PDF qui me donnent des résultats amusants. Le texte est extrait très bien, mais pour une raison quelconque, il aura un saut de ligne après chaque mot! Pas un gros problème pour un fichier PDF court, mais certainement un problème pour les fichiers avec beaucoup de texte. Si cela vous arrive, essayez l'outil suivant.

OCR en ligne

En général, OCR en ligne a tendance à fonctionner pour les documents qui n'ont pas été convertis correctement avec ExtractPDF, c'est donc une bonne idée d'essayer les deux services pour voir lesquels vous donnent un meilleur rendement. OCR en ligne a également quelques fonctionnalités plus agréables qui peuvent s'avérer utiles pour toute personne ayant un fichier PDF volumineux qui a seulement besoin de convertir du texte sur quelques pages plutôt que sur l'ensemble du document.

La première chose que vous voulez faire est de créer un compte gratuit. C'est un peu ennuyeux, mais si vous ne créez pas le compte gratuit, il ne convertira que partiellement votre PDF plutôt que le document entier. En outre, au lieu de télécharger uniquement un document de 5 Mo, vous pouvez télécharger jusqu'à 100 Mo par fichier avec un compte.

Commencez par choisir une langue, puis choisissez le type de format de sortie que vous souhaitez pour le fichier converti. Vous avez quelques options et vous pouvez en choisir plus d'une si vous le souhaitez. Sous le document multipage, vous pouvez sélectionner des numéros de page, puis choisissez uniquement les pages que vous souhaitez convertir. Ensuite, vous sélectionnez le fichier et cliquez sur Convertir !

Après la conversion, vous serez redirigé vers la section Documents (si vous êtes connecté) où vous pourrez voir le nombre de pages gratuites disponibles et les liens pour télécharger vos fichiers convertis. Il semble que vous ayez 25 pages gratuites par jour, donc si vous avez besoin de plus, vous devrez soit attendre un peu, soit acheter plus de pages.

OCR en ligne a fait un excellent travail de conversion de mes fichiers PDF, car il était capable de maintenir la mise en page réelle du texte. Dans mon test, j'ai pris un document Word qui utilisait des puces, différentes tailles de police, etc. et je l'ai converti en PDF. Ensuite, j'ai utilisé Online OCR pour le convertir en format Word et il était à peu près 95% identique à l'original. C'est assez impressionnant pour moi.

De plus, si vous cherchez à convertir une image en texte, Online OCR peut le faire aussi facilement que l'extraction de texte à partir de fichiers PDF.

OCR en ligne gratuit

Puisque je parlais de l'OCR de l'image au texte, permettez-moi de mentionner un autre bon site Web qui fonctionne très bien sur les images. OCR en ligne gratuit était très bon et très précis lors de l'extraction du texte de mes images de test. J'ai pris quelques photos de mon iPhone de pages de livres, de brochures, etc. et j'ai été surpris de voir à quel point il était capable de convertir le texte.

Choisissez votre fichier, puis cliquez sur le bouton Télécharger. Sur l'écran suivant, il y a quelques options et un aperçu de l'image. Vous pouvez recadrer si vous ne voulez pas OCR le tout. Puis cliquez simplement sur le bouton OCR et votre texte converti apparaîtra sous l'aperçu de l'image. Il n'a également aucune limitation, ce qui est vraiment sympa.

En plus des services en ligne, il y a deux convertisseurs PDF freeware que je veux mentionner au cas où vous auriez besoin d'un logiciel fonctionnant localement sur votre ordinateur pour effectuer les conversions. Avec les services en ligne, vous aurez toujours besoin d'une connexion Internet et cela peut ne pas être possible pour tout le monde. Cependant, j'ai remarqué que la qualité des conversions issues des programmes freeware était significativement inférieure à celle des sites web.

A-PDF Extracteur de texte

A-PDF Text Extractor est un freeware qui fait un bon travail d'extraction de texte à partir de fichiers PDF. Une fois que vous l'avez téléchargé et installé, cliquez sur le bouton Ouvrir pour choisir votre fichier PDF. Cliquez ensuite sur Extraire le texte pour démarrer le processus.

Il vous demandera un emplacement pour stocker le fichier de sortie de texte, puis il commencera à extraire. Vous pouvez également cliquer sur le bouton Option, qui vous permet de choisir uniquement certaines pages à extraire et le type d'extraction. La deuxième option est intéressante car elle extrait le texte dans différentes dispositions et il vaut la peine d'essayer tous les trois pour voir lequel vous donne le meilleur résultat.

PDF2Text Pilote

PDF2Text Pilot fait un bon travail d'extraction de texte. Il n'a pas d'options; vous ajoutez simplement des fichiers ou des dossiers, convertissez et espérez pour le mieux. Cela a bien fonctionné pour certains PDF, mais pour la majorité d'entre eux, il y avait de nombreux problèmes.

Cliquez simplement sur Ajouter des fichiers, puis sur Convertir . Une fois la conversion terminée, cliquez sur Parcourir pour ouvrir le fichier. Votre kilométrage variera en utilisant ce programme, alors ne vous attendez pas à beaucoup.

Aussi, il est important de mentionner que si vous êtes dans un environnement d'entreprise ou que vous pouvez mettre la main sur une copie d'Adobe Acrobat, vous pouvez vraiment obtenir de meilleurs résultats. Acrobat n'est évidemment pas gratuit, mais il a des options pour convertir le format PDF en Word, Excel et HTML. Il fait également le meilleur travail de maintenir la structure du document original et de convertir le texte compliqué.


Comment modifier les heures de silence par défaut dans Windows 10

Comment modifier les heures de silence par défaut dans Windows 10

Vous êtes-vous déjà demandé pourquoi vous pouvez uniquement activer ou désactiver les heures de repos dans Windows 10, mais ne pas définir les heures réelles? On a aussi. Mais avec un peu de piratage de Registre ou de stratégie de groupe, il s'avère que vous pouvez. CONNEXION: Comment configurer le mode Ne pas déranger sous Windows 10 Windows 8 a introduit l'idée de la version Quiet Hours-Windows Ne pas déranger, où les notifications ne vous informeront pas pendant ces heures.

(how-to)

Comment supprimer les parties inutilisées des captures d'écran cryptées dans les documents Microsoft Office

Comment supprimer les parties inutilisées des captures d'écran cryptées dans les documents Microsoft Office

Lorsque vous ajoutez une capture d'écran à un document Microsoft Office et que vous la recadrez, vous ne pensez probablement pas des portions inutilisées, mais saviez-vous qu'elles sont toujours présentes et qu'elles pourraient constituer un risque pour la sécurité si elles contiennent des informations sensibles?

(how-to)