テキストファイルとは

informatics/basics/text_files
2018/01/19 更新

リンクは別のページに飛びます。

  1. 概要: テキストファイルとは
  2. テキストファイルを編集するソフト

広告

概要: テキストファイルとは

テキストファイル text file とは 文字コードによって表されるデータのみを含むファイル のことである。データには、文字および制御文字が含まれる。

制御文字には、例えば改行 line feed を指定する改行コードなどがある。これについては 改行コード (一括置換など) のページで述べている。


文字コードとは

テキストファイルを理解するために、まずは文字コードについてまとめる。コンピューターは二進数で情報を処理していることは有名であるが、この画面のように日本語やアルファベットを表示することができる。つまり、二進数と文字には対応関係がある。文字コード とは、文字に割り当てられた数字のこと、または文字と数字を対応づけるルールのことをいう (2)。

文字と数字を対応づけるルールを「エンコーディング」といって使い分ける場合もあり、定義は少々混乱しているようである (2)。

下の図は、ASCII というやや古い文字コードを表したものである (1)。ただし、これもわかりやすくアルファベットなどを使った対応表であり、本来は全て二進数で 010001111000000101010 のように表されている。


代表的な文字コード (エンコーディング) は以下の通り。


UTF-8

EUC-JP

Shift-JIS

ASCII

英数字を表す文字コード。非常に互換性が高い。アルファベットで文字化けがほとんど起こらないのは、文字コードが ASCII で統一されているためである。


Text file とバイナリファイル

テキストファイル以外のファイルは、全て バイナリファイル binary file である。つまり文字コードのルールに従わない情報が収められているファイルで、画像、音楽、システムファイルなど多くがこれにあたる。

たとえば Microsoft Word のファイルはテキストファイルのように思えるが、実はフォント、文字の大きさ、文字の色などの書式情報が収められており、この部分は文字コードのルールに従っていない。そのため Word file はバイナリファイルに分類される。

Linux での Latex 環境の構築 で、Word file の書式情報が蓄積してゴミになることを述べているので、興味のある人は参考にしてほしい。


広告

テキストエディタ: テキストファイルを編集するソフト

テキストファイルは上記のようにシンプルなファイルなので、もちろん多くのアプリケーションで編集できる。これらを総称して テキストエディタ という。非常にたくさんあるが、私が使っているものをいくつか挙げておく。


Brackets

html エディタ として使っているので、一番慣れているテキスト編集ソフト。

テキストエディット

Mac OS X のテキストエディタ。デフォルトでは、リッチテキスト .rtf で保存するようになってしまっているために使いにくい。環境設定から format を rich text から plain text に変更すれば、.txt で新規ファイルを保存できるようになる。

Atom

Linux で Latex 環境を構築するのに使っている。

TextWrangler

複数ファイルの一括編集、php ファイルの編集に使っている。


コメント欄

一言コメントをどうぞ! (基本500字まで - 100字のページもあるかも)


フォーラムを作ったので、各ページにあるコメント欄のうち、コメントがついていないものは順次消していきます。今後はフォーラムをご利用下さい。管理人に直接質問したい場合は、下のバナーからブログへ移動してコメントをお願いします。


References

  1. By Namazu-tron - See above description, Public Domain, Link: Last access 6/1/2017.
  2. いいから聞け! 俺が文字コードについて教えてやるよ その1 (前提知識編) Link: Last access 6/1/2017.