it-swarm-ja.com

txtファイルのエンコーディングをバッチ変換

クローズドキャプションソフトウェアプロセスの結果である約700のファイルがあります。 PCまたはMacのファイルをGUIで開くことができますが、nanoを使用してサーバーで開くと、次のようになります。

��0^@0^@;^@0^@0^@;^@0^@0^@;^@0^@0^@ ^@0^@0^@;^@0^@0^@;^@0^@6^@;^@0^@0^@
^@
^@N^@o^@t^@ ^@A^@v^@a^@i^@l^@a^@b^@l^@e^@

これが私が試したいくつかのコマンドラインの結果です:

#file infile.txt 
infile.txt: data

# file -bi --mime-encoding  infile.txt 
application/octet-stream; charset=binary

recode ../CR-LF infile.txt
#file -bi --mime-encoding  infile.txt

#iconv -f binary -t uff-8 infile.txt > out.txt
iconv: conversions from `binary' and to `uff-8' are not supported

#recode ../CR-LF infile.txt
#recode UTF8..ISO-8859-15 infile.txt 
# file -bi --mime-encoding  infile.txt 
text/plain; charset=utf-16le

#xxd infile.txt | head -5
0000000: fffe 3000 3000 3b00 3000 3000 3b00 3000  ..0.0.;.0.0.;.0.
0000010: 3000 3b00 3000 3000 2000 3000 3000 3b00  0.;.0.0. .0.0.;.
0000020: 3000 3000 3b00 3000 3600 3b00 3000 3000  0.0.;.0.6.;.0.0.
0000030: 0d00 0d0a 004e 006f 0074 0020 0041 0076  .....N.o.t. .A.v
0000040: 0061 0069 006c 0061 0062 006c 0065 00    .a.i.l.a.b.l.e.

実際のファイルは次のようになります(最良の選択ではなかったことがわかりました。誤って何も含まれていないファイルを選択しました)。

00;00;00;00 00;00;06;00 Not Available

次に、ファイルをnanoすると、DOSおよびMac形式から変換されたというテキストが下部に表示されますが、それでもすべてがゴミです。ファイルをループしてデータベースにデータをインポートできるようにする必要がありますが、サーバーがフォーマットを読み取れない場合はもちろんそれはできません。

将来的にはこれらをたくさん生成するので、長期的な解決策を見つけたいと思います。WindowsPowerShellまたは同等のものを使用せずに、変換をプロセスに組み込みます。

2
Alan

したがって、私にとっての解決策は、最終的にrecodeを使用することでした。優れたドキュメントはそれほど多くありませんが、トリックは-fオプションを使用して強制的に変更することでした。

recode -f UTF-7 *.txt
2
Alan