Fetch Page Module(ページ抜き取りモジュール)

Fetch Page Module(ページ抜き取りモジュール)



There's more data on the web than just RSS and Atom feeds. This module fetches the source of a given web site as a string. This data can then be converted into an RSS feed or merged with other data in your Pipe using the Regex module.

To use Fetch Page module, first enter the URL of the site you want. The module will read the page's source as a string. You can choose to only get part of the page by setting the starting point using the 'Cut content from' field and the end point by using the 'to' field. Only the part of the page between these two strings will be returned.

Fetch Page(ページ抜き取り)モジュールを使うにはまず持ってきたいサイトのURLを入力する。モジュールはページを文字列として読み取る。「Cut content from(ここから切り出し)」フィールドで始点、「to(ここまで切り出し)」フィールドで終点を指定することでページの一部分だけを選ぶことも出来る。指定した2つの文字列の間に挟まった部分だけが抜き出される。

Many pages have repeating elements that you'd like to process separately in the rest of the Pipe. The Fetch Page module allows you to specify a delimiter to cut the strings into a sequence of different items, and works in the same was as the string tokenizer module.

多くのページには繰り返しの要素(例えばリスト等)があり、パイプ処理で抜き出した残りのデータを繰り返しの要素単位で別々に処理したいことがある。その場合、アイテム毎に文字列を切り出すためにFetch Page(ページ抜き取り)モジュールで特定のデリミタを指定する。するとstring tokenizer(文字列トークン化)モジュールと同様の動作をする。

Note on usage: The module will only fetch HTML pages under 200k and the page must also be indexable (I.E. allowed by the site's robots.txt file.) If you do not want your page made available to this module, please add it to your robots.txt file, or add the following tag into the page's <head>element:


使用上の注意:このモジュールでは200kb以上のページを抜き取ることは出来ない。またrobots.txtファイルでインデックスを許可されているページ以外は抜き出すことが出来ない。もし、自分のページがこのモジュールで抜き出されたくないなら、robots.txtファイルで抜き出し禁止を指定しておくかページの<head>要素内に<META NAME="ROBOTS" CONTENT="NOINDEX">と記述する。


