Как я могу анализировать очень большие (70+ГБ).txt файлы?

Question

Как я могу анализировать очень большие (70+ГБ).txt файлы?

У меня есть несколько файлов .txt с >30 миллионами строк в каждом и от 20 до 40 "столбцов" (некоторые разделены запятыми, некоторые пробелами, все ASCII со строками, разделенными новой строкой). Мне не нужны все (или даже большинство) столбцов, и в некоторых из них пустые пробелы заполнены NULL.

Мои цели заключаются в том, чтобы:

Удалите столбцы, которые мне не нужны
Переупорядочить столбцы так, как я считаю нужным (для удобства чтения)
Вывод канала в другой файл.txt файл со столбцами, разделенными двоеточиями

Я только что сделал это с одним большим текстовым файлом, разделив его на ~40 .txt файлов по 1 000 000 строк в каждом, импортировав их по одному в Excel и используя ОБЪЕДИНЕНИЕ, но этот подход не принес никаких результатов с моей следующей целью. Файл разделен запятыми, но его все равно необходимо преобразовать из .txt в .csv, и Excel подавляется им в процессе импорта; даже если я получил его в Excel, основной файл разбивается на более чем 200 файлов меньшего размера соблюдать верхний предел строки Excel и выполнять одно и то же более 200 раз неэффективно.

Я работаю над MacBook Pro конца 2020 года и недостаточно разбираюсь в языках программирования, чтобы даже знать, с чего начать, но я почти комфортно пишу сценарии в оболочке и всегда готов учиться новым трюкам, просто не знаю, с чего начать.

bash parsing

автор: