Term Extractor Module(要約抽出モジュール) - 適宜覚書-Fragments

Term Extractor Module(要約抽出モジュール)

      2017/03/02

f:id:dacs:20080517114013p:image

This module analyzes text piped into it, and tries to find the most significant few words within it. The Term Extractor module can output either a single text string containing all the significant words, or a list of word groupings.

Pipes - String Modules

このモジュールはPipe中に流れる文字列を分析し、もっとも重要な意味合いをもつ幾つかの単語群を見つけ出そうとする。そして、全ての重要な意味合いの単語群を含む文字列、或いは単語グループのリストを出力することが出来る。

If you opt for a list of results, each resulting item is a set of words that Term Extractor thinks are related. For example, if you input "camels are animals not indigenous to Southern California", Term Extractor returns three items: "camels", "southern california", and "animals". If you chose instead to return output as a single item, it would have simpley been "camels southern california animals".

Pipes - String Modules

結果リストを選択すると、結果の各アイテムはTerm Extractorモジュールが関連づくと判断した単語の組み合わせとなる。例えば、「camels are animals not indigenous to Southern California(ラクダは南カリフォルニア土着の動物ではない)」と入力したとする。すると、Term Extractorモジュールは「camels(ラクダ)」「southern california(南カリフォルニア)」「animals(動物)」という3つのアイテムを返してくる。

f:id:dacs:20080519000246p:image

The Term Extractor module replaces the now-deprecated Content Analysis module.

Pipes - String Modules

Term Extractor(用語抽出)モジュールは、現在非推奨のContent Analysis(内容分析)モジュールを代替するものである。

補足情報

先の例での出力図は、モジュールのプルダウンリストから「single item(1アイテムで纏めて出力)」を選択した場合である。もう一つの選択肢「list(出力毎でitemとする)」を選択した場合、下図のようにそれぞれ別アイテムになる。

f:id:dacs:20080519000859p:image

以降の出力、或いは加工の都合で選択すると良い。

ちょいと思いつきでドナドナの歌詞1番を要約させてみた。元はこんな感じ。

f:id:dacs:20080519001759p:image

で、出力はこうなる。

f:id:dacs:20080519001760p:image

  • dona dona(ドナドナ)
  • swallow(ツバメ)
  • sky(空)

少々微妙な結果である。日本語で幾つか試してみたが、現時点では出力が全くないため利用出来ない。

和訳目次

適宜覚書-Fragmentsは、筆者が興味をもった様々な情報やネタを筆者が忘れても後で思い出せるよう覚書として公開するBlogです。Google Chrome拡張、Facebook、Google、Twitter、Windows、各種Webアプリなどを扱うことが多いです。この覚書が、もし何かお役立ちになれば幸いです。

 - 覚書