Как я могу анализировать очень большие (70+ГБ).txt файлы?
У меня есть несколько файлов .txt
с >30 миллионами строк в каждом и от 20 до 40 "столбцов" (некоторые разделены запятыми, некоторые пробелами, все ASCII со строками, разделенными новой строкой). Мне не нужны все (или даже большинство) столбцов, и в некоторых из них пустые пробелы заполнены NULL
.
Мои цели заключаются в том, чтобы:
- Удалите столбцы, которые мне не нужны
- Переупорядочить столбцы так, как я считаю нужным (для удобства чтения)
- Вывод канала в другой файл.txt файл со столбцами, разделенными двоеточиями
Я только что сделал это с одним большим текстовым файлом, разделив его на ~40 .txt
файлов по 1 000 000 строк в каждом, импортировав их по одному в Excel и используя ОБЪЕДИНЕНИЕ, но этот подход не принес никаких результатов с моей следующей целью. Файл разделен запятыми, но его все равно необходимо преобразовать из .txt
в .csv
, и Excel подавляется им в процессе импорта; даже если я получил его в Excel, основной файл разбивается на более чем 200 файлов меньшего размера соблюдать верхний предел строки Excel и выполнять одно и то же более 200 раз неэффективно.
Я работаю над MacBook Pro конца 2020 года и недостаточно разбираюсь в языках программирования, чтобы даже знать, с чего начать, но я почти комфортно пишу сценарии в оболочке и всегда готов учиться новым трюкам, просто не знаю, с чего начать.