Fetch Page Module(ページ抜き取りモジュール) - 適宜覚書-Fragments

Fetch Page Module(ページ抜き取りモジュール)

      2017/03/02

f:id:dacs:20080413232149p:image

There's more data on the web than just RSS and Atom feeds. This module fetches the source of a given web site as a string. This data can then be converted into an RSS feed or merged with other data in your Pipe using the Regex module.

Pipes - Source Modules

WebにはRSSやATOM以外に沢山のデータがある。このモジュールはソースとして指定したウェブサイトを文字列扱いで抜き取ってくる。そこでこのデータをRSSフィードに変換したり、Regex(正規表現)モジュールで他のデータと結合させたりなんてことが出来る。

To use Fetch Page module, first enter the URL of the site you want. The module will read the page's source as a string. You can choose to only get part of the page by setting the starting point using the 'Cut content from' field and the end point by using the 'to' field. Only the part of the page between these two strings will be returned.

Pipes - Source Modules

Fetch Page(ページ抜き取り)モジュールを使うにはまず持ってきたいサイトのURLを入力する。モジュールはページを文字列として読み取る。「Cut content from(ここから切り出し)」フィールドで始点、「to(ここまで切り出し)」フィールドで終点を指定することでページの一部分だけを選ぶことも出来る。指定した2つの文字列の間に挟まった部分だけが抜き出される。

Many pages have repeating elements that you'd like to process separately in the rest of the Pipe. The Fetch Page module allows you to specify a delimiter to cut the strings into a sequence of different items, and works in the same was as the string tokenizer module.

Pipes - Source Modules

多くのページには繰り返しの要素(例えばリスト等)があり、パイプ処理で抜き出した残りのデータを繰り返しの要素単位で別々に処理したいことがある。その場合、アイテム毎に文字列を切り出すためにFetch Page(ページ抜き取り)モジュールで特定のデリミタを指定する。するとstring tokenizer(文字列トークン化)モジュールと同様の動作をする。

Note on usage: The module will only fetch HTML pages under 200k and the page must also be indexable (I.E. allowed by the site's robots.txt file.) If you do not want your page made available to this module, please add it to your robots.txt file, or add the following tag into the page's <head>element:

<META NAME="ROBOTS" CONTENT="NOINDEX">

Pipes - Source Modules

使用上の注意:このモジュールでは200kb以上のページを抜き取ることは出来ない。またrobots.txtファイルでインデックスを許可されているページ以外は抜き出すことが出来ない。もし、自分のページがこのモジュールで抜き出されたくないなら、robots.txtファイルで抜き出し禁止を指定しておくかページの<head>要素内に<META NAME="ROBOTS" CONTENT="NOINDEX">と記述する。

和訳目次

適宜覚書-Fragmentsは、筆者が興味をもった様々な情報やネタを筆者が忘れても後で思い出せるよう覚書として公開するBlogです。Google Chrome拡張、Facebook、Google、Twitter、Windows、各種Webアプリなどを扱うことが多いです。この覚書が、もし何かお役立ちになれば幸いです。

 - 覚書