Parser

A Rust library/website for extracting text from various document formats.

Features

PDF, DOCX, XLSX, PPTX documents
OCR for images (PNG, JPEG, WebP) with English and French support
Plain text formats (TXT, CSV, JSON)

Usage

use parser::parse;

fn main() -> Result<(), Box<dyn std::error::Error>> {
    let data = std::fs::read("document.pdf")?;
    let text = parse(&data)?;
    println!("{}", text);
    Ok(())
}

System Dependencies

Requires Tesseract OCR libraries:

Debian/Ubuntu: sudo apt install libtesseract-dev libleptonica-dev libclang-dev
macOS: brew install tesseract
Windows: Follow the instructions at Tesseract GitHub repository

License

MIT

Name		Name	Last commit message	Last commit date
Latest commit History 372 Commits
.github/workflows		.github/workflows
assets		assets
benches		benches
src		src
tests		tests
.dockerignore		.dockerignore
.gitignore		.gitignore
Cargo.lock		Cargo.lock
Cargo.toml		Cargo.toml
Dockerfile		Dockerfile
LICENSE		LICENSE
README.md		README.md
compose.yaml		compose.yaml
website_preview.png		website_preview.png

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Parser

Features

Usage

System Dependencies

License

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Parser

Features

Usage

System Dependencies

License

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages