ルビージョブス株式会社

News

ニュース

PDFをMarkdownへ高速変換する新サービス「Markdown Converter」を提供開始

ルビージョブス株式会社は、PDFファイルをMarkdownに高速変換する新サービス「Markdown Converter」(https://dev.2md.rubyjobs.jp)をベータ提供開始しました。PDFの構造を保持したまま軽量で扱いやすいMarkdown形式に変換でき、AIやLLMとの相性も最適。RAGなどの仕組みと組み合わせることで業務効率化やナレッジ活用を大幅に向上します。

〜AI時代に最適化されたドキュメント活用を実現〜

ルビージョブス株式会社(本社:東京千代田区、代表取締役:小林福嗣)は、PDFファイルをMarkdown形式に変換するクラウドサービス「Markdown Converter(https://dev.2md.rubyjobs.jp)」開発し、試験提供を開始いたしました。

サービス概要

「Markdown Converter」は、PDFファイルをそのままAIやLLMに渡すとコンテキストが溢れてしまうという課題を解決するために開発されたサービスです。本サービスを利用し前処理でご活用いただくことで、PDFに含まれるテキストや構造(見出し、表、リストなど)を保持したまま、軽量で扱いやすいMarkdown形式に変換できます。

変換後のMarkdownは、人間が読みやすいだけでなく、AIの処理にも最適化されており、RAG(Retrieval-Augmented Generation)などの仕組みと組み合わせることで、業務効率化やナレッジ活用を大幅に向上させます。

特徴

  • 構造保持:見出し、リスト、表などの文書構造をMarkdown形式で再現
  • 軽量化:PDFよりも圧倒的に小さなサイズで扱いやすい
  • AI最適化:分割処理やベクトル検索との相性が良く、LLM活用に最適
  • クラウド対応:ブラウザから簡単に利用可能
  • WebAPI対応:AIエージェントツールやプログラムへ容易に組み込みが可能

※ APIキー、インターフェース定義については問合せ対応させていただきます

背景

近年、生成AIや大規模言語モデル(LLM)の業務活用が急速に進む中で、既存のドキュメント資産をどのようにAIに読み込ませるかが大きな課題となっています。特に、PDF形式は構造解析やテキスト抽出で表を含むものであったり、様々なフォーマットで存在するPDFをMarkdownへ容易に変換することが難しく、そのまま利用すると情報が正しく扱われないケースが多発していました。例えば、1MB の PDF は数十万トークン相当になることもあり、そのままでは入りきらずエラーやトークン切り捨てが発生していた。

「Markdown Converter」は、その課題を解決したく開発いたしました。

今後の展開

今後は以下の機能追加を予定しています。

  • OCR対応による画像PDFからのテキスト抽出
  • Markdown + メタデータ(ページ番号、出典情報など)の保持
  • PDF以外のファイル(word等のOffice製品や、画像、動画、音声など) のテキスト化
  • 更なる分散処理による高速化

サービス情報

本件に関するお問い合わせ先

ルビージョブス株式会社
hello@rubyjobs.jp
https://rubyjobs.jp/contact

※ PDF(Portable Document Format)は、アドビ株式会社が開発した電子文書フォーマットです。
※ Markdown(マークダウン)は、2004年にJohn Gruber氏によって考案された軽量マークアップ言語であり、プレーンテキストを簡単な記法で装飾し、HTMLなどの構造化文書へ変換できるフォーマットです。Wikipedia