justtextは、HTMLから記事本文や主要なテキストのみを抽出するコマンドラインのツールです。
ウェブサイトをクロールしたあとに、そのHTMLから記事本文や主要なテキストのみを抽出すると、大規模言語モデルに与えやすくなります。
$ npm install --global @kokiito0926/justtextcurlなどで取得したHTMLをパイプでjusttextに流し込みます。
$ curl -sSL https://example.com/ | justtext| Name | Name | Last commit date | ||
|---|---|---|---|---|
justtextは、HTMLから記事本文や主要なテキストのみを抽出するコマンドラインのツールです。
ウェブサイトをクロールしたあとに、そのHTMLから記事本文や主要なテキストのみを抽出すると、大規模言語モデルに与えやすくなります。
$ npm install --global @kokiito0926/justtextcurlなどで取得したHTMLをパイプでjusttextに流し込みます。
$ curl -sSL https://example.com/ | justtext