データの準備
テキスト分類を使用するための最初のステップは、入力ファイルとテスト ファイルを準備することです。そのためには、両方のファイル内で、タブで区切られた値としてデータを構造化する必要があります。ファイルには、次の形式で詳細情報が記述されている必要があります。
- UFT-8 エンコーディング
- 2 行のタブ区切りデータ。1 行目にはカテゴリ名 ("Patient" や "Provider" など)、2 行目には各カテゴリのデータ (以下の例を参照してください) が含まれます。
データは次のようになります。
Patient John Smith dob04181963 224 Main St. Atl GA 30311
Provider Mark Johnson M.D. NPI5489512047 412 Washington Atl GA 30301