テキスト分類の概要

テキスト分類 (テキストのカテゴリ化とも呼ばれます) は、構造化されていないコンテンツまたはプレーンテキスト (電子メール、ニュース記事、コメントなど) にカスタムカテゴリを割り当てる処理です。コンテンツは、題名、著者、日付、または、ユーザが考案した実質的に任意の分類体系に基づいて分類できます。

カテゴライザモデルにお使いのデータやカテゴリを学習させることによって、お客様独自のカテゴライザを作成することができます。まず、トレーナーがデータを分析し、トレーニングプロセスで取得した情報を保存します。次にコンテンツを分析し、コンテンツが属するカテゴリを決定します。

テキスト分類機能は、統計的なテキスト分類プロセスを使用します。このプロセスでは、人間が作成したトレーニングドキュメントに基づく自動分類ルールを学習するための、機械学習手法を適用します。

自由に選択した分類方法が適用できるため、最初にそのカテゴリを「学習」するようにモデルを「トレーニング」する必要があります。それを終えてから、モデルを Text Categorizer ステージで使用して、構造化されていないデータを分類することができます。

Spectrum™ Technology Platformでは、管理ユーティリティコマンドを使用して、テキスト分類モデルを管理します。コマンドの説明については、管理ユーティリティコマンドを参照してください。